帖子中仅提供了一些图片链接，无实质可翻译内容

整个讨论主要围绕模型展开，特别是R1和o1。主题包括它们在基准测试中的表现、泛化能力、性能评估等方面的比较。既有对数据污染问题的讨论，也有对模型架构、优化目标影响的分析，还涉及到其他模型的相关话题，整体氛围比较理性客观，大家从不同角度阐述观点并进行深入探讨。

👍 R1在泛化方面不如o1
- 支持理由：如在更新基准测试、小众子领域评估、非传统领域或技能方面R1性能下降等表现。
- 反对声音：无。
🔥 AIME 2025存在数据污染问题
- 正方观点：很多题目网上能找到或有相似题目。
- 反方观点：有观点认为推文不可全信，例子中的题目并不相同不能判定为污染。
💡 Deepseek - r1可能对现有基准过拟合
- 解释：通过AIME 2025题目覆盖度等情况推测得出。
💡 o1 - pro纳入基准测试即将发生
- 解释：EmptyTuple明确表示此事即将进行。
💡 在处理特定数学问题时，o3 - mini在多方面表现优于R1
- 解释：在n - 单纯形数学问题中，o3 - mini在正确性、尝试次数、速度方面优于R1。

“😂 No, you just figured out something we have known for almost two weeks - as a benchmark set, AIME 2025 has certain level of data contamination issues, lots of its problems are available online or at least some very similar problems are available online.”
- 亮点：直接指出AIME 2025存在数据污染问题。
“🤔 EmptyTuple：R1 sure is amazing, but what we find is that it lags behind in novelty adaptation and reliability.”
- 亮点：总结了R1在新颖性适应和可靠性方面的不足。
“👀 在这个过程中，o3 - mini在正确性、所需尝试次数，尤其是速度方面始终优于R1——R1在20分钟内做错的事情，o3 - mini只需几分钟就能正确解决。”
- 亮点：清晰地对比了o3 - mini和R1在处理特定问题时的表现。

总体情感倾向比较中立客观。主要分歧点在于AIME 2025是否存在数据污染以及Deepseek - r1是否过拟合等问题。可能的原因是不同的分析角度和信息来源，例如对于数据污染问题，有的依据网络上题目相似性判断，而有的则认为不能仅据此判定。

详细内容：

标题：关于 R1 与 o1 性能比较的热门讨论

近日，Reddit 上一篇题为“R1 is insanely good, but falls short of o1 in generalization”的帖子引发了热烈讨论。该帖子获得了众多关注，评论数众多。

帖子主要探讨了 R1 虽然表现出色，但在某些方面不如 o1 具有通用性。讨论的方向主要集中在数据污染、训练方式、性能表现等方面。

核心问题在于：R1 与 o1 性能差异的原因究竟是什么？

有人指出，作为基准集的 AIME 2025 存在一定的数据污染问题，其很多问题在网上能找到相似的，OpenAI 可能因训练数据更多而在覆盖度上更有优势。例如，有人分享道：“作为一名在相关领域研究了许久的人员，我亲身经历了类似问题的困扰。在之前的研究中，就曾发现某些数据的来源存在可疑之处。”

也有人认为某些观点应谨慎对待，比如，有用户分享：“我刚刚查看了一个例子，发现所谓的相似问题并非完全相同。”

还有人表示，R1 可能在针对未训练过的任务时表现较差，而且其模型架构和优化目标可能导致在处理新问题时通用性不足。

有人提出 o1 的知识截止时间是 2023 年 10 月，而 deepseeks 则更新。同时，也有人在实际使用中发现 o3-mini 在处理某些复杂数学问题时表现优于 R1。

讨论中的共识在于，对于这些模型的性能评估需要综合考虑多个因素，不能简单地一概而论。

特别有见地的观点如，有人认为模型的架构和优化应根据具体应用场景进行调整，以提高其通用性和性能。

总之，这场关于 R1 与 o1 的讨论揭示了模型性能评估的复杂性和多样性，也为进一步改进和优化模型提供了有价值的思考方向。

详细内容：#