原贴链接

我感觉大部分可能是炒作。他们(不像o1?)在ARC - AGI训练集上训练o3,投入160万的计算成本以达到85%的成果。他们还在前沿数学基准测试上投入了大量计算。我们不知道其他模型在类似条件下的表现。也许双子座Flash 2.0思维或者o1更聪明或者更笨,但我们就是不知道。或者我们知道?是否存在不只是炒作的公平比较?你对它在公平竞争中的表现有何想法?编辑:我看到qwq - 32b预览版在math - 500中表现优于o1 - 预览版,所以现在我非常有兴趣看看如果一个开源32b模型在前沿数学上投入和o3一样的计算量会表现如何。

讨论总结

此讨论围绕o3与o1模型比较展开,涵盖多个方面。有人认为o3在多个方面优于o1,也有人对这种比较的公平性提出疑问。其中包括模型改进来源、计算预算、基准测试情况等讨论点,还涉及o1和o3与4o模型的关系。此外,对于o3是否真正具有智能也存在争议,有观点认为o3是暴力模型并非真正在思考,也有不同意见。同时还出现了对模型发布情况的疑惑以及炒作质疑等内容。

主要观点

  1. 👍 o3比o1好很多
    • 支持理由:o3在一些基准测试中有很大改进,改进源于调整和扩展等
    • 反对声音:有人认为这种比较不成立,因为o1和o3都是基于4o模型,原帖要求的公平比较不存在
  2. 🔥 o3不是真正在思考,是暴力模型
    • 正方观点:o3是通过不断生成思维链“程序”来求解,并非真正智能
    • 反方观点:o3能长时间思考本身是大事,它生成思维链并自我评估答案正确性是一种思考表现
  3. 💡 o3相对o1在纯编码基准上有50%的提升很惊人
    • 解释:开发者从纯编码基准方面比较得出,不在乎AGI概念,更关注这种提升幅度
  4. 💡 不存在以最小计算量比较o1和o3的情况
    • 解释:因为o1和o3都是基于4o模型,本质是在比较4o模型自身
  5. 💡 对不同模型在类似情况下比较感兴趣
    • 解释:部分评论者想了解在相同条件下不同模型的表现

金句与有趣评论

  1. “😂 They said they didn’t train on it during the live stream.”
    • 亮点:是关于o3训练情况的陈述,引起后续关于o3改进等方面的讨论
  2. “🤔 It’s not been trained to think longer (so it’s not clear if just asking it to spend more tokens would yield better results) and has also not been tuned to increase compute time at will.”
    • 亮点:对o3训练局限性的思考,引发关于模型能力的深入探讨
  3. “👀 Kathane37:You train model through RL to outuput longer and longer qualitative CoT to emulate reasoning”
    • 亮点:对模型训练方式及模拟推理过程的解释,有助于理解模型原理
  4. “😂 LiquidGunay:The fact that it can think for so long is already a big deal.”
    • 亮点:表达对o3长时间思考能力的一种看法,与认为o3不是真正思考的观点形成对比
  5. “🤔 作为开发者,忽略我不关心的AGI之类的废话。”
    • 亮点:体现了开发者不同的关注点,从独特视角看待模型比较

情感分析

总体情感倾向为中性偏探索性。主要分歧点在于o3是否比o1好、o3是否真正具有智能等。可能的原因是大家对模型的理解不同,从不同角度(如技术原理、性能表现、智能定义等)看待模型比较,同时也受到是否存在炒作等外部因素的影响。

趋势与预测

  • 新兴话题:o3的自我评估能力以及这种能力对其性能和智能程度判定的影响可能会引发后续讨论。
  • 潜在影响:如果o3在各种基准测试中的优势被进一步证实,可能会影响相关领域对模型发展方向的判断;如果炒作质疑属实,可能影响大众对模型的信任度和接受度。

详细内容:

标题:关于 o3 与 o1 比较的热门讨论

在 Reddit 上,一则题为“ So how does o3 compare to o1 in a fair comparison?”的帖子引发了广泛关注,获得了众多点赞和大量评论。帖子主要探讨了 o3 与 o1 的比较问题,认为 o3 在 ARC-AGI 训练集上的训练以及高昂的计算成本带来了 85%的表现提升,但不清楚其他模型在类似条件下的表现,引发了关于是否存在公平比较以及 o3 实际表现的讨论。

在讨论焦点与观点分析中,有人认为 o3 相比 o1 有了巨大的改进;也有人质疑其改进的来源和实际效果。比如,有人指出 o3 在其他基准测试中也有显著提升,肯定比 o1 好得多;但也有人认为,不知道在类似情况下其他模型会如何表现,比如 qwq 32b 可能有类似性能。

有人提到 o3 在 ARC 测试中为达到 87%的成绩所需的计算量巨大,每查询需 1000 美元。还有人说改进来自于调优和规模扩展,规模扩展并非凭空而来,是因为 o3 能改变计算预算并成功运作。但也有人质疑 o3 是否真的有更长的推理链,认为它更像是一种暴力模型,不断生成直到获得正确答案,并非真正的智能。

也有人认为,推理实际上涉及智能修剪,按某种启发式对候选进行排序。有人则反驳,认为 o3 能够自我评估答案是否正确,这也是一种思考方式。

同时,有人指出在纯编码基准测试中,o3 比 o1 有 50%的提升,这很惊人;但也有人表示只看到截图,没有关于计算次数、计算量、令牌数量等的详细信息。还有人认为计算成本会随时间下降,测试时计算量的持续扩展以及快速的提升是一件大事。

有人提供了 frontier math 基准的相关链接:https://epoch.ai/frontiermath 以及示例问题链接:https://epoch.ai/frontiermath/benchmark-problems

总的来说,关于 o3 与 o1 的比较讨论充满了各种观点和争议,究竟如何客观评价它们的性能和差异,还需要更多的信息和深入探讨。