原贴链接

我对这个新模型非常感兴趣；我一直在图像生成领域做很多工作，并且我想要了解其中的原理。我在打开网络标签查看后端（BE）发送的内容时发现了一些有趣的细节，以下是我的发现。我用了几个不同的提示进行尝试，先以这个为例：“一只快乐的狗在街道上奔跑的图像，吉卜力工作室风格”。在这里我得到了四张中间图像，如下：https://llminfo.image.fangd123.cn/images/6q6f9b9naere1.png!/format/webp。我们可以看到：后端（BE）实际上返回的图像就是我们在用户界面（UI）中看到的图像；不太清楚生成过程是否是自回归的——我们看到了一些细节和图像模糊的整体结构，这可能意味着两件事：像通常的扩散过程一样，我们首先生成整体结构然后添加细节；或者——图像实际上是自回归生成的。如果我们分析第一帧和最后一帧的100%放大图，我们可以看到像树木这样的高频纹理正在被添加细节。https://preview.redd.it/vxdt6m8oaere1.png?width = 2608&format = png&auto = webp&s = 00b4f056ed1d4b6e363146438b951e59e2279965。这是我们通常期望从扩散模型中得到的结果。在这个其他示例中这一点更加明显，我专门针对高频细节纹理进行提示（“创建一个颗粒状纹理、抽象形状、非常高细节的图像”）。https://preview.redd.it/4sd80u4paere1.png?width = 2048&format = png&auto = webp&s = 29a87f794c0041801bc825e32cebcbcbed8a3ddf。有趣的是，在这里我从后端（BE）只得到了三张图像；并且添加细节是很明显的：https://preview.redd.it/nuoeccupaere1.png?width = 2058&format = png&auto = webp&s = 2c0ffd1869939b6a7cc24167cd69ad7bd94ad728。当然，这也可以作为一个单独的后处理步骤来完成，例如就像SDXL之前引入的精炼模型，专门用于在将变分自编码器（VAE）潜在表示解码为像素空间之前添加细节。也不清楚我使用这个提示得到更少的图像是由于可用性（即后端（BE）可以给我更多的浮点运算次数（flops）），还是由于某种特定的优化（例如：潜在缓存）。所以我现在的想法是：这可能是一个多步骤的处理流程；OpenAI在模型卡片中声明“与作为扩散模型运行的DALL·E不同，4o图像生成是一个原生嵌入ChatGPT的自回归模型”；这让我想到了最近的这篇论文：OmniGen。在那里，他们直接将潜在扩散架构的变分自编码器（VAE）连接到一个大型语言模型（LLM），并学习联合对文本和图像进行建模；他们也观察到了少样本能力和新兴属性，这可以解释GPT4 - o的强大能力，如果我们考虑通常的OpenAI模式（更多/更高质量的数据，更多的浮点运算次数（flops）），就更说得通了。OmniGen中提出的架构有很大的扩展潜力，因为它是纯粹基于Transformer的——如果我们知道一件事，那就是Transformer可以很好地扩展，并且OpenAI在这方面尤其擅长。你怎么看？我很乐意把这里当作一个共同研究的空间！感谢阅读，让我们一探究竟！

讨论总结

原帖作者对GPT - 4o图像生成进行逆向工程研究并分享成果，评论者们积极参与讨论。大家主要围绕GPT - 4o图像生成的模型类型（自回归或扩散等）、生成机制（多步骤、分层解码器等）、数据质量来源（如能否访问互联网）等方面展开讨论，既有对原帖内容的认可、补充，也有质疑，整体氛围积极且富有探索性。

主要观点

👍 认为最后一步可能是放大操作导致看到更多细节
- 支持理由：原帖中提到看到图像生成过程中的细节变化，评论者据此推测最后一步有放大操作。
- 反对声音：无
🔥 认为个人逆向工程GPT - 4o图像生成价值不大
- 正方观点：中国学术界和工业界正在大力剖析，个人未完成前可能有新开源模型出现。
- 反方观点：部分人认为个人研究也有意义。
💡 质疑原帖作者看到的不是图像生成而是浏览器加载图像的过程
- 解释：指出可能先看到高度压缩版再加载完整版或者图像逐行加载等正常浏览器加载现象。
💡 认为GPT - 4o图像生成不是基于扩散的模型，而是自回归模型
- 解释：参考读过的SOTA方法相关论文，认为该模型不是简单预测标记序列的方法。
💡 认为GPT - 4o图像生成可能存在分层解码器且在像素级细节方面运用了扩散模型
- 解释：基于对所有测试结果的推测。

金句与有趣评论

“😂 Maybe the last step is upscaled and that’s why you see more details?”
- 亮点：对原帖中图像生成过程中细节增多现象提出一种可能的解释。
“🤔 BITE_AU_CHOCOLAT：Tbh I don’t think there’s much value in trying to reverse engineer it on your own.”
- 亮点：从不同角度看待个人对GPT - 4o图像生成的逆向工程研究。
“👀 I don’t think so.”
- 亮点：简洁地表达对他人观点的否定态度。
“😂 My bet is AR + tools / refinement”
- 亮点：对GPT - 4o图像生成模式提出自己的独特看法。
“🤔 I assume it actually returns the image in the same way the inference happens: there are chunks of information sent directly from the large language model (LLM) as tokens, which are used as a refinement cycle.”
- 亮点：对GPT - 4o图像生成机制提出一种推测性解释。

情感分析

总体情感倾向积极，大部分评论者对原帖作者的研究要么表示认可、感兴趣，要么在原帖基础上积极探讨相关技术问题。主要分歧点在于对GPT - 4o图像生成的具体机制（如是否为扩散模型、是否自回归等）以及个人对其逆向工程研究的价值。可能的原因是大家基于不同的知识背景和对技术的理解深度不同。

趋势与预测

新兴话题：关于GPT - 4o图像生成是否可能是新模型与旧技术（如Image GPT）的结合，以及是否会有类似Liquid LLM这样的新模型与之相关。
潜在影响：如果开源实现出现，可能会对图像生成领域的竞争格局产生影响，促使更多的技术创新和应用开发。

详细内容：

标题：对 GPT-4o 图像生成的深度探讨在 Reddit 引发热烈讨论

最近，Reddit 上一篇关于反向工程 GPT-4o 图像生成的帖子引发了网友们的热烈关注。该帖子获得了众多点赞和大量评论。

原帖作者对 GPT-4o 图像生成模型充满好奇，并通过打开网络选项卡研究其发送的内容，发现了一些有趣的细节。比如在生成“一只快乐狗在街上跑，吉卜力工作室风格”的图像时，得到了四张中间图像，并对其生成方式进行了分析。

讨论的焦点主要集中在 GPT-4o 图像生成的原理和机制。有人认为最后一步可能是进行了图像放大，所以能看到更多细节，且肯定不是扩散模型。也有人指出扩散和自回归并非相互排斥，很多 2024 年的重要论文都同时使用了这两种技术。还有用户猜测这是一个具有潜在扩散模型作为解码器的变压器模型，或者是一个分层解码器，亦或是自回归解码先在潜在空间进行，然后以扩散风格进行优化。

有人提出，也许 GPT-4o 图像生成是通过先生成低分辨率的初始图像，然后再生成完整图像，并将低分辨率图像用高质量图像覆盖。还有人认为它可能像推理一样返回图像，即 LLM 直接发送作为精炼周期的信息块。

有人表示，中国社区可能正在大力剖析这个模型，我们很快会有新的开源模型。但也有人认为反向工程意义不大。

对于 GPT-4o 图像生成，您怎么看？它的神秘面纱能否被彻底揭开，开源竞争对手又能否迎头赶上？让我们一起期待更多的研究和发现。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#