原贴链接

我们终于有了OpenAI的一个性价比合理的推理模型，这肯定是Deepseek r1的影响。不管怎样，我们现在有了o3系列的首批模型。而且，它是首个官方支持函数调用的推理模型。另一个有趣的地方是，和o1不同，我们现在能看到思维链（CoT）。然而，这个思维链不像Deepseek r1那样原始，只是一个简化版的，我不确定他们为什么还不公开原始版本。# 价格方面或许这个模型最突出的方面就是它的性能和o1相当，但价格却比o1低15倍，实际上有时候性能还更好。它甚至比GPT - 4o还便宜2倍，这就更有趣了。那么为什么Chatgpt用户的查询次数有限而GPT - 4o却无限制查询呢？是Deepseek迫使OpenAI补贴API成本了吗？# 性能方面为了知道它是否真的比r1和o1更好，我用推理、数学、编程等基准问题对它进行了测试。以下是我的观察结果：* 除了o1 - pro之外，o3 - mini - high是推理任务可用的最佳模型。* 对于数学，o1和o3 - mini - high水平相当，比Deepseek r1略好一点。* 同样，对于编程，在我的用例中o3 - mini - high感觉更好，但不同用例情况可能不同。它速度更快，所以使用起来更好。* 在创意写作方面，我还是觉得Deepseek r1更好，特别是它的思维链轨迹。我希望OpenAI在未来的模型中能公开原始的思维链。这个模型实际上很不错，考虑到成本，它比o1好多了。如果他们能给我们展示实际的思维链就好了，而且我认为现在很多人对思维模式比实际回答更感兴趣。如需对OpenAI o3 - mini的深入分析、评论以及与Deepseek r1的比较，请查看这篇博客文章：[On OpenAI o3 - mini](https://composio.dev/blog/openai - o3 - mini - vs - deepseek - r1/)。很想知道你们对o3 - mini有什么看法和体验。与Deepseek r1相比你们觉得它怎么样？

讨论总结

原帖主要讨论OpenAI的o3 - mini模型与r1、o1的比较，包括价格、性能等方面。评论涉及多个话题，如纠正原帖关于GPT - 4o查询限制的表述、o3 - mini在编码方面的表现、不同模型在特定测试中的结果、对Deepseek r2的期待以及o3 - mini在聊天机器人中的使用体验等，既有肯定也有否定的观点，总体氛围较为理性讨论。

主要观点

👍 o3 - mini - high在推理任务中是除o1 - pro外最好的模型
- 支持理由：原帖作者通过自己的测试得出这一结论。
- 反对声音：无。
🔥 o3 - mini - high在编码时严格遵循指令方面表现不好，o1 - pro更受青睐
- 正方观点：Tavrin等评论者表示在编码实践中o3 - mini - high表现不佳，o1 - pro更好。
- 反方观点：Fleshybum认为o3 - mini - high是编码的最佳模型。
💡 不同推理模型在编码方面普遍擅长规划但不擅长执行
- 解释：ForsookComparison提出这一观点，认为这是推理模型在编码方面的共性。
💡 o3 - mini - high性能高于完整的o1，低于o1 pro
- 解释：评论者直接给出了这一性能对比关系。
👍 o3 - mini在聊天机器人中的响应很好，对上下文信息处理能力佳且能与30多种工具协作
- 支持理由：评论者使用后的亲身体验。
- 反对声音：无。

金句与有趣评论

“😂 其不是GPT - 4o，…GPT - 4o mini在Chatgpt中有无限查询。”
- 亮点：纠正原帖的错误表述，体现出评论者对相关产品的了解。
“🤔 Tavrin: I tried o3 mini high for coding but it’s just not good at strictly following instructions. O1 pro is still my preferred model for this.”
- 亮点：分享个人使用体验，直观地比较了两个模型在编码方面的表现。
“👀 o3 - mini - high solved it in 7 seconds. R1 took 93 secs but eventually got it right.”
- 亮点：通过具体的数据展示了不同模型在测试中的表现差异。
“😂 Deepseek kept stumbling on it could not finish, here’s o3 - mini’s answer, let me know if it’s right”
- 亮点：反映出对AI结果正确性的不确定态度。
“🤔 我将它用于聊天机器人中，响应非常好，这让我想起Claude Sonnet。”
- 亮点：从使用体验出发，将o3 - mini与Claude Sonnet联系起来。

情感分析

总体情感倾向较为复杂，既有肯定o3 - mini的观点，如在推理任务中的表现、聊天机器人中的响应等方面；也有否定的观点，如在编码方面的表现。主要分歧点在于o3 - mini在不同任务中的表现，可能是由于不同用户的使用场景和需求不同，以及对模型功能和表现的期望不同导致的。

趋势与预测

新兴话题：Deepseek r2的推出可能引发后续讨论。
潜在影响：对人工智能模型在不同领域（如推理、编码等）的优化和改进有一定的推动作用，也可能影响用户对不同模型的选择倾向。

详细内容：

《OpenAI o3-mini 引发的热烈讨论：性能与优势的权衡》

在 Reddit 上，一则关于“Notes on OpenAI o3-mini: How good is it compared to r1 and o1?”的帖子引发了众多关注。此帖探讨了 OpenAI 新推出的 o3-mini 模型，并将其与 r1 和 o1 等模型进行了比较，获得了大量的点赞和众多的评论。

帖子主要围绕着 o3-mini 模型的价格、性能以及与其他模型的对比展开讨论。有人指出 o3-mini 价格相对较低，性能在某些方面表现出色，但在某些方面也存在不足。比如，在数学和编码方面，不同用户有着不同的看法。

讨论焦点主要集中在以下几个方面：

对于编码任务，有人认为 o3-mini 表现不佳，比如[Tavrin]表示“我尝试用 o3 mini high 进行编码，但它在严格遵循指令方面做得不好。o1 pro 仍是我在这方面的首选模型”。但也有人持相反观点，像[Fleshybum]觉得“在我看来，o3 mini high 显然是进行编码工作的最佳模型”。
有人分享个人经历，[JacobJohnJimmyX_X]说“我使用 Chat GPT 编码超过 6 个月。从经验来看，推理模型的输出量只有以前的一半，速度也比以前慢得多。o1 mini 曾经是最好的，能在单个提示中输出多达 1600 行有效代码，而 o3 mini 则很难达到一半。”

在性能测试方面，[SunilKumarDash]提到“o3-mini-high 解决某个问题用了 7 秒，R1 用了 93 秒但最终得出了正确答案”。

讨论中的共识在于大家都对 o3-mini 模型的表现给予了关注，并期待它能在未来有更好的改进。特别有见地的观点如[pier4r]所说“有趣的是，我们向 AI 询问连自己都无法解决的问题。如果我们不知道结果是否正确，又怎么知道它们不是在胡说呢？所以能够评估结果的正确性很重要。”

总之，关于 OpenAI o3-mini 模型的讨论丰富多样，大家从不同角度分析和评价，为进一步了解该模型提供了多元的视角。你对 o3-mini 又有怎样的看法呢？

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#