原贴链接

来源：以下3个X平台（原推特）的帖子：https://x.com/dylan522p/status/1869077942305009886、https://x.com/dylan522p/status/1869082407653314888、https://x.com/dylan522p/status/1869085209649692860。据推测，这些细节也在SemiAnalysis文章《Scaling Laws – O1 Pro Architecture, Reasoning Training Infrastructure, Orion and Claude 3.5 Opus “Failures”》（需付费阅读部分）中：https://semianalysis.com/2024/12/11/scaling-laws - o1 - pro - architecture - reasoning - training - infrastructure - orion - and - claude - 3.5 - opus - failures/。1）‘4o, o1, o1 preview, o1 pro都是相同大小的模型’。2）O1比GPT - 4O更贵的原因是’与seqlen kvcache开销有关’。3）‘O1 Pro是与O1相同的模型，在推理时进行了调整’

讨论总结

该讨论围绕Dylan Patel关于模型（o1、o1 pro、gpt - 4o等）的一些论断展开。包括模型之间的关系、价格差异与技术因素的关联、消息来源的可靠性等话题。参与者提出了不同的观点，有表示赞同原帖内容的，也有对原帖内容表示怀疑或否定的，整体讨论氛围理性且充满探索性。

主要观点

👍 100个函数操作一个数据结构比10个函数操作10个数据结构更好
- 支持理由：未阐述，直接引用编程警句，可能在编程或相关技术领域有优势。
- 反对声音：无。
🔥 “Seqlen kvcache overhead”可能就是上下文长度，相同模型相同上下文长度不应有6倍价格差
- 正方观点：从价格与上下文长度的关系出发，认为存在不合理性。
- 反方观点：有观点从批次大小、计算复杂度等方面进行回应。
💡 对Dylan Patel消息来源的质疑
- 支持理由：原帖未明确表明消息来源，引发质疑。
- 反对声音：有人指出Dylan Patel声称消息来源是OpenAI。
💡 非官方宣布的消息难以相信，因为谣言过多且易传播
- 支持理由：当前信息环境中谣言泛滥，非官方消息可信度低。
- 反对声音：无。
💡 对Opus 3.5是否失败存在疑问并等待更多证据
- 支持理由：缺乏足够依据判断Opus 3.5是否失败。
- 反对声音：无。

金句与有趣评论

“😂 It is better to have 100 functions operate on one data structure than 10 functions on 10 data structures.”
- 亮点：这是一句经典的编程警句，被引用到讨论中，虽然未做过多阐述，但引人深思。
“🤔 “Seqlen kvcache overhead” doesn’t this just mean context length?”
- 亮点：对技术术语提出疑问，是关于价格差异讨论的关键起始点。
“👀 I find it hard to believe anything unless the organization announces it.”
- 亮点：反映出对当前信息环境中谣言泛滥的担忧，以及对非官方消息的谨慎态度。
“🤔 He says that it’s not true that Opus 3.5 failed: they trained the model, found it good but too expensive to serve to users, and so they’re using it to create synthetic data for Sonnet 3.5”
- 亮点：对Opus 3.5的情况提出了不同看法，引发后续关于模型是否失败的讨论。
“😏 makes sense to me i thought it was common knowledge that o1 was pretty much just based on 4o with some fancy shmancy inference stuff”
- 亮点：表达了对原帖内容合理性的看法，引发关于模型关系是常识还是新观点的讨论。

情感分析

总体情感倾向较为复杂，既有赞同原帖内容的，也有怀疑和否定的。主要分歧点在于对原帖内容的信任度，原因包括对消息来源的质疑、对技术关系的不同理解以及对当前信息环境的态度。

趋势与预测

新兴话题：关于O3与其他模型的关系可能会引发后续讨论，如O3是否基于4o - Latest等。
潜在影响：如果相关模型关系和技术细节被进一步确认或推翻，可能会影响人们对这些模型的使用、研发方向以及对相关技术公司的信任度。

详细内容：

标题：关于 O1 与 GPT-4O 模型的热门讨论

在 Reddit 上，一则有关 O1 与 GPT-4O 模型的帖子引发了广泛关注。原帖指出，“4o、o1、o1 preview、o1 pro 都是相同规模的模型”，O1 比 GPT-4O 更昂贵的原因“与 seqlen kvcache 开销有关”，“o1 pro 与 o1 是相同模型，只是在推理时进行了调整”，该帖子获得了众多点赞和大量评论。帖子中还提供了多个相关链接。

讨论的焦点主要集中在 O1 与 GPT-4O 模型的差异和价格差异的原因。有人认为，“‘Seqlen kvcache 开销’难道不只是意味着上下文长度吗？”并质疑相同的上下文长度为何价格差异如此之大。还有人表示，“他的意思是更高的序列长度意味着需要降低批量大小。每个实例服务的人数更少。”也有人提到，“对于平均输出令牌，推理模型的上下文/序列长度要高得多。”

有用户分享道：“我倾向于将‘上下文长度’视为所支持的最大值，而实际用于预测下一个令牌的更多是被称为序列长度或只是‘上下文’。就成本而言，不仅因为更长的上下文需要为 KV 缓存提供更多内存而降低批量大小，而且对于更长的上下文计算复杂度也会增加。所以，每个线程的 tps 会下降。因此，所有（现在更少的）线程的总 tps 会大幅下降。”

在讨论中，也存在一些不同的声音。有人说：“如果是相同的基础模型，对于类似的上下文应该成本相同。”

对于价格差异的原因，大家观点不一。有人认为是模型架构或推理系统的不同，也有人认为是为了提高价格获取更多利润。同时，也有人猜测 O1 可能运行在更昂贵的硬件上以加快推理时间。

总之，这场讨论揭示了大家对于 O1 与 GPT-4O 模型的诸多疑问和思考，充分展示了其复杂性和多样性。但究竟真相如何，还有待进一步的官方说明。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#