无有效内容可翻译（仅包含两个图片链接）

讨论总结

该讨论主要围绕AIME 2025相关模型展开，涉及模型的分数、性能、价格、数据等多方面。从不同角度对这些模型进行分析比较，有对模型性价比的讨论，也有对模型性能在不同年份表现差异的疑问，还有对价格合理性以及数据污染等问题的探讨，整体氛围偏向理性探讨。

主要观点

👍 o3 - mini性价比相对令人印象深刻。
- 支持理由：procgen认为其价格/性能比相对较好。
- 反对声音：nootropicMan指出不是本地且权重不开放是问题。
🔥 R1在AIME 2024和2025表现不同令人疑惑。
- 正方观点：Gullible_Fall182发现表现不同并询问原因。
- 反方观点：无明确反方观点。
💡 蒸馏模型在AIME25第一部分实验中表现优于组训练模型。
- 解释：MachinePolaSD通过自己的实验得出此结论。
👍 存在数据污染问题影响模型分数。
- 支持理由：有相似题目在互联网上可能被用于提升模型分数。
- 反对声音：无明确反对声音。
🔥 Deepseek价格偏高。
- 正方观点：通过比较模型分数和价格得出。
- 反方观点：无明确反方观点。

金句与有趣评论

“🤔 This is being circulating many times”
- 亮点：暗示相关事件具有一定传播热度。
“😎 That o3 - mini price/performance ratio is comparatively impressive.”
- 亮点：最早提出o3 - mini性价比相对令人印象深刻的观点。
“👀 I mentioned this in a prior post that R1 and the distills performance drops off when given problems that are slight variants of the AIME 2024 tests.”
- 亮点：对R1在不同年份表现差异给出了一种解释方向。
“😂 Isn’t this stupid?”
- 亮点：直白表达对当前情况的否定态度。
“💡 I averaged model scores on the two version of the AIME tests (this should be fine for this informal comparison as the tests are designed to be similar), then computed the pareto frontier based on prices.”
- 亮点：提供了一种比较模型的方法思路。

情感分析

总体情感倾向比较复杂，有对模型表现和价格等方面的正面评价，如对o3 - mini性价比的肯定；也有负面评价，如对o1 - pro没有API表示不满，认为是低劣策略。主要分歧点在于对不同模型的评价上，原因是大家从不同角度如性能、价格、数据等方面来考量这些模型。

趋势与预测

新兴话题：模型在竞赛数学中的表现是否能广泛推广。
潜在影响：如果模型在竞赛数学中的表现不具有广泛推广性，可能会影响相关模型在其他领域的应用信心，也会影响人们对模型训练数据和方式的重新思考。

详细内容：

标题：关于 AIME 2025 模型分数的热门讨论

在 Reddit 上，一则关于“AIME 2025 分数的相关讨论引起了众多关注。原帖指出，考虑到所需数据量之少，distilled R1 模型的分数令人印象深刻。此帖获得了大量的点赞和众多评论。

讨论的焦点主要集中在模型的性能、价格、数据处理等方面。有人表示 Closed AI 在 LocalLLaMA 中获得了许多优惠待遇，不知原因何在。有人认为 o3-mini 的价格/性能比相当出色，尽管它并非本地且权重不开放。还有人提到自己在本地运行 Qwen 14B 模型，价格几乎为零。

有人对 R1 在 AIME 2024 和 AIME 2025 上表现差异提出疑问，希望得到解释。有用户指出，R1 和其他模型在给定 AIME 2024 测试的轻微变体问题时，性能会下降，这引发了对其训练方式的怀疑。也有人认为可能存在数据的差异，或者组织发布的基准结果存在夸大成分，应谨慎看待。

例如，有用户分享道：“我在之前的帖子中提到过，R1 和其他模型在给定 AIME 2024 测试的轻微变体问题时，性能会下降。这让人怀疑 R1 和其他模型是在训练测试和解决方案。这些模型在前提顺序改变的问题上仍然失败，这几乎影响了所有的最先进的语言模型。通过使用正确的数据集进行 ICL 或 SFT，Gemini 1.5 flash 和 gpt-4o mini 可以解决 AIMIE 问题，并对变体进行泛化，同时解决前提顺序错误的问题。我强烈不同意 Deepmind 关于 RL 导致泛化而 SFT 导致记忆的论文。有很多方法可以进行 SFT，这是毫无疑问的。”

同时，也有用户通过实验得出不同的结论，如有人在自己的实验中发现，在 aime25 部分，蒸馏模型的表现优于在 huggingface 中训练的模型。

讨论中存在的共识是，对于这些模型的性能和价格排名，需要谨慎解读，因为这是竞争数学，模型在此方面经过特别训练，其出色表现可能无法广泛推广。特别有见地的观点认为，可能存在数据污染，部分问题在互联网上有非常相似的对应内容。

总之，关于 AIME 2025 模型分数的讨论展现了大家对模型性能和相关问题的深入思考和关注。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#