原贴链接

我们终于有了OpenAI的一个性价比合理的推理模型,这肯定是Deepseek r1的影响。不管怎样,我们现在有了o3系列的首批模型。而且,它是首个官方支持函数调用的推理模型。另一个有趣的地方是,和o1不同,我们现在能看到思维链(CoT)。然而,这个思维链不像Deepseek r1那样原始,只是一个简化版的,我不确定他们为什么还不公开原始版本。# 价格方面或许这个模型最突出的方面就是它的性能和o1相当,但价格却比o1低15倍,实际上有时候性能还更好。它甚至比GPT - 4o还便宜2倍,这就更有趣了。那么为什么Chatgpt用户的查询次数有限而GPT - 4o却无限制查询呢?是Deepseek迫使OpenAI补贴API成本了吗?# 性能方面为了知道它是否真的比r1和o1更好,我用推理、数学、编程等基准问题对它进行了测试。以下是我的观察结果:* 除了o1 - pro之外,o3 - mini - high是推理任务可用的最佳模型。* 对于数学,o1和o3 - mini - high水平相当,比Deepseek r1略好一点。* 同样,对于编程,在我的用例中o3 - mini - high感觉更好,但不同用例情况可能不同。它速度更快,所以使用起来更好。* 在创意写作方面,我还是觉得Deepseek r1更好,特别是它的思维链轨迹。我希望OpenAI在未来的模型中能公开原始的思维链。这个模型实际上很不错,考虑到成本,它比o1好多了。如果他们能给我们展示实际的思维链就好了,而且我认为现在很多人对思维模式比实际回答更感兴趣。如需对OpenAI o3 - mini的深入分析、评论以及与Deepseek r1的比较,请查看这篇博客文章:[On OpenAI o3 - mini](https://composio.dev/blog/openai - o3 - mini - vs - deepseek - r1/)。很想知道你们对o3 - mini有什么看法和体验。与Deepseek r1相比你们觉得它怎么样?

讨论总结

原帖主要讨论OpenAI的o3 - mini模型与r1、o1的比较,包括价格、性能等方面。评论涉及多个话题,如纠正原帖关于GPT - 4o查询限制的表述、o3 - mini在编码方面的表现、不同模型在特定测试中的结果、对Deepseek r2的期待以及o3 - mini在聊天机器人中的使用体验等,既有肯定也有否定的观点,总体氛围较为理性讨论。

主要观点

  1. 👍 o3 - mini - high在推理任务中是除o1 - pro外最好的模型
    • 支持理由:原帖作者通过自己的测试得出这一结论。
    • 反对声音:无。
  2. 🔥 o3 - mini - high在编码时严格遵循指令方面表现不好,o1 - pro更受青睐
    • 正方观点:Tavrin等评论者表示在编码实践中o3 - mini - high表现不佳,o1 - pro更好。
    • 反方观点:Fleshybum认为o3 - mini - high是编码的最佳模型。
  3. 💡 不同推理模型在编码方面普遍擅长规划但不擅长执行
    • 解释:ForsookComparison提出这一观点,认为这是推理模型在编码方面的共性。
  4. 💡 o3 - mini - high性能高于完整的o1,低于o1 pro
    • 解释:评论者直接给出了这一性能对比关系。
  5. 👍 o3 - mini在聊天机器人中的响应很好,对上下文信息处理能力佳且能与30多种工具协作
    • 支持理由:评论者使用后的亲身体验。
    • 反对声音:无。

金句与有趣评论

  1. “😂 其不是GPT - 4o,…GPT - 4o mini在Chatgpt中有无限查询。”
    • 亮点:纠正原帖的错误表述,体现出评论者对相关产品的了解。
  2. “🤔 Tavrin: I tried o3 mini high for coding but it’s just not good at strictly following instructions. O1 pro is still my preferred model for this.”
    • 亮点:分享个人使用体验,直观地比较了两个模型在编码方面的表现。
  3. “👀 o3 - mini - high solved it in 7 seconds. R1 took 93 secs but eventually got it right.”
    • 亮点:通过具体的数据展示了不同模型在测试中的表现差异。
  4. “😂 Deepseek kept stumbling on it could not finish, here’s o3 - mini’s answer, let me know if it’s right”
    • 亮点:反映出对AI结果正确性的不确定态度。
  5. “🤔 我将它用于聊天机器人中,响应非常好,这让我想起Claude Sonnet。”
    • 亮点:从使用体验出发,将o3 - mini与Claude Sonnet联系起来。

情感分析

总体情感倾向较为复杂,既有肯定o3 - mini的观点,如在推理任务中的表现、聊天机器人中的响应等方面;也有否定的观点,如在编码方面的表现。主要分歧点在于o3 - mini在不同任务中的表现,可能是由于不同用户的使用场景和需求不同,以及对模型功能和表现的期望不同导致的。

趋势与预测

  • 新兴话题:Deepseek r2的推出可能引发后续讨论。
  • 潜在影响:对人工智能模型在不同领域(如推理、编码等)的优化和改进有一定的推动作用,也可能影响用户对不同模型的选择倾向。

详细内容:

《OpenAI o3-mini 引发的热烈讨论:性能与优势的权衡》

在 Reddit 上,一则关于“Notes on OpenAI o3-mini: How good is it compared to r1 and o1?”的帖子引发了众多关注。此帖探讨了 OpenAI 新推出的 o3-mini 模型,并将其与 r1 和 o1 等模型进行了比较,获得了大量的点赞和众多的评论。

帖子主要围绕着 o3-mini 模型的价格、性能以及与其他模型的对比展开讨论。有人指出 o3-mini 价格相对较低,性能在某些方面表现出色,但在某些方面也存在不足。比如,在数学和编码方面,不同用户有着不同的看法。

讨论焦点主要集中在以下几个方面:

  • 对于编码任务,有人认为 o3-mini 表现不佳,比如[Tavrin]表示“我尝试用 o3 mini high 进行编码,但它在严格遵循指令方面做得不好。o1 pro 仍是我在这方面的首选模型”。但也有人持相反观点,像[Fleshybum]觉得“在我看来,o3 mini high 显然是进行编码工作的最佳模型”。
  • 有人分享个人经历,[JacobJohnJimmyX_X]说“我使用 Chat GPT 编码超过 6 个月。从经验来看,推理模型的输出量只有以前的一半,速度也比以前慢得多。o1 mini 曾经是最好的,能在单个提示中输出多达 1600 行有效代码,而 o3 mini 则很难达到一半。”

在性能测试方面,[SunilKumarDash]提到“o3-mini-high 解决某个问题用了 7 秒,R1 用了 93 秒但最终得出了正确答案”。

讨论中的共识在于大家都对 o3-mini 模型的表现给予了关注,并期待它能在未来有更好的改进。特别有见地的观点如[pier4r]所说“有趣的是,我们向 AI 询问连自己都无法解决的问题。如果我们不知道结果是否正确,又怎么知道它们不是在胡说呢?所以能够评估结果的正确性很重要。”

总之,关于 OpenAI o3-mini 模型的讨论丰富多样,大家从不同角度分析和评价,为进一步了解该模型提供了多元的视角。你对 o3-mini 又有怎样的看法呢?