这已经是可以预见的一段时间了。如果你想了解o1是如何工作的,你需要查看原始论文: 让我们一步一步验证 - https://arxiv.org/pdf/2305.20050(注意作者)。
然后还有一些额外的提示: https://openai.com/index/prover-verifier-games-improve-legibility/
甚至从o1模型帖子中:
在许多推理密集的基准测试中,o1与人类专家的表现不相上下。最近的尖端模型^(1)在MATH^(2)和GSM8K上的表现如此之好,以至于这些基准测试不再能够有效区分模型。我们在AIME上评估了数学表现,这是一项旨在挑战美国最优秀高中数学学生的考试。在2024年的AIME考试中,GPT-4o平均解决了12%(1.8/15)的问题。o1平均解决了74%(11.1/15)的问题,每个问题只有一个样本,83%(12.5/15)在64个样本中达成共识,93%(13.9/15)当使用学习到的评分函数对1000个样本进行重新排序时。13.9分的成绩使其跻身全国前500名学生之列,并超过了美国数学奥林匹克的分数线。 …
在放宽提交限制的情况下,我们发现模型性能显著提高。当允许每个问题提交10,000次时,模型达到了362.14分——超过了金牌门槛——即使没有任何测试时选择策略。
这一切都暗示了在评分函数下进行的最佳n选择或其他类型的搜索,这些搜索应用于CoT过程中的步骤。因此,一方面有一个模型被训练来产生更连贯的CoT步骤,另一方面有一个判别器评估每个步骤,然后根据应用的每步评分进行选择。
讨论总结
本次讨论主要围绕OpenAI的o1模型在推理能力和有限步骤下的有效搜索展开。讨论者们从不同角度探讨了o1模型的表现、训练方法和实际应用效果。一些评论者通过个人实践验证了prover verifier游戏在特定任务中的有效性,而另一些则质疑o1模型的“推理突破”是否真的存在,认为其优势主要来自于CoT提示和提示链的迭代应用。此外,讨论还涉及了模型在数学考试中的表现、reflection和reasoning tokens在训练中的作用,以及搜索和战略思维在系统设计中的重要性。总体而言,讨论内容丰富,观点多样,既有支持也有质疑。
主要观点
👍 o1模型在数学推理任务中表现出色
- 支持理由:通过多次采样和重新排序,o1模型能够达到甚至超过人类顶尖学生的水平。
- 反对声音:一些评论者认为这种表现主要得益于CoT提示和提示链的迭代应用,而非真正的推理能力提升。
🔥 o1模型的“推理突破”存在质疑
- 正方观点:o1模型的优势主要来自于CoT提示和提示链的迭代应用。
- 反方观点:评论者认为o1模型在需要高度推理能力的任务上表现不佳,其他模型如Claude也能通过类似方法达到类似效果。
💡 reflection和reasoning tokens在模型训练中起到重要作用
- 解释:尽管reflection技术有效,但在实际应用中可能不如其他技术表现出色。
👍 搜索和战略思维在系统设计中的重要性
- 支持理由:系统2的主要架构师Noam Brown在搜索和战略思维方面有丰富的经验,这对系统设计有重要影响。
🔥 模型在代码生成和代码完成任务中的表现差异
- 正方观点:o1模型在代码生成任务中表现出色。
- 反方观点:但在需要高度推理能力的代码完成任务中表现不佳。
金句与有趣评论
“😂 RandoRedditGui:The fact that code generation is great, but completion is terrible (which puts it still about 10pts behind Claude overall on Livebench), imo. Is the clearest indicator that there is no real secret sauce to its "reasoning" above from CoT and prompt chaining.”
- 亮点:通过对比代码生成和代码完成任务的表现,质疑o1模型的“推理突破”。
“🤔 ihaag:Another reasoning tokens: https://platform.openai.com/docs/guides/reasoning/how-reasoning-works \n> Reflection man was on to something.”
- 亮点:提到了reasoning tokens和reflection在模型训练中的作用。
“👀 segmond:Exactly, the main architect of this system 2 worked on search, Q\*. Noam Brown. poker at superhuman level, Diplomacy, all those shows search, strategic thinking, etc.”
- 亮点:通过提及Noam Brown的过往成就,强调了搜索和战略思维在系统设计中的重要性。
情感分析
讨论的总体情感倾向较为中性,既有对o1模型表现的赞赏,也有对其“推理突破”的质疑。主要分歧点在于o1模型的优势是否真的来自于推理能力的提升,还是仅仅得益于CoT提示和提示链的迭代应用。可能的原因包括不同评论者对模型训练和实际应用的理解差异,以及对推理能力定义的不同看法。
趋势与预测
- 新兴话题:reflection和reasoning tokens在模型训练中的具体应用和效果。
- 潜在影响:对AI模型在推理任务中的表现评估标准可能会有所调整,更加注重实际应用中的表现和可复制性。
详细内容:
标题:关于 o1 模型的热门讨论
在 Reddit 上,一则有关 o1 模型的帖子引起了广泛关注。该帖探讨了 o1 模型的工作原理,并提供了多个相关链接,如https://arxiv.org/pdf/2305.20050、https://openai.com/index/prover-verifier-games-improve-legibility/。帖子还列举了 o1 模型在一些测试中的出色表现,比如在 2024 年的 AIME 考试中,o1 模型在不同条件下的得分情况。此帖获得了众多点赞和大量评论,引发了关于 o1 模型性能及原理的热烈讨论。
讨论的焦点主要集中在 o1 模型的优势究竟是来自于新的推理方式,还是传统的 CoT 及提示链技术。有人认为 o1 模型的出色表现只是 CoT 优势的体现,比如有用户表示:“我认为对于 OpenAI 所声称的很多东西,我们中的很多人都理解。但我不同意的是,它到底有多大的重要性,我觉得这更多的只是 CoT 的优势。在我看来,它在大多数领域,包括代码生成方面表现良好,但在代码补全方面却表现糟糕,这表明没有重大的‘推理’突破。”但也有人提出不同观点,如:“‘秘诀’在于用于使模型产生这种 CoT 行为的训练数据。从他们的例子在这个页面(点击‘展示思维链’)可以看出,有一些明确训练的‘思考’在引导模型反复检查其工作。”
有人指出,通过 CoT 提示在特定工具的辅助下能够实现很好的效果,而另有人则怀疑仅通过 CoT 提示能否让模型达到像 LiveBench 上所看到的 o1 模型那样的推理分数。还有用户认为,o1 模型在代码方面表现不佳是基于所训练的 GPT-4o 模型的限制,而非方法本身的问题。
这场讨论中的共识在于认可 o1 模型在某些方面的出色表现,但对于其优势的来源存在较大争议。一些独特的观点如认为“自我引导”的 CoT 和提示链是关键因素,丰富了讨论的深度。
总之,关于 o1 模型的讨论展示了人们对于新技术的关注和思考,也反映了在探索人工智能模型性能和原理方面的复杂性和多样性。
感谢您的耐心阅读!来选个表情,或者留个评论吧!