可查看论文https://arxiv.org/abs/2501.04519。Qwen2.5 - Math - 7B通过新技术在MATH上达到90%的准确率，Phi3 - mini - 3.8B达到86.4%。

讨论总结

该讨论围绕微软新研究rStar - Math展开，这一研究使小型语言模型（LLMs）在数学推理方面取得成果，如Qwen2.5 - Math - 7B在MATH上达到90%等。评论者观点多样，有人对成果表示惊叹，有人质疑成果在不同场景或其他能力提升方面的情况，还有人表达了困惑、期待、幽默调侃等多种态度，同时也涉及到模型相关的偏好模型、测试兴趣等话题。

主要观点

👍 现有的使小型LLMs在数学推理上取得成果的方法依赖奖励/偏好模型
- 支持理由：文中提及的Qwen2.5 - Math - 7B和Phi3 - mini - 3.8B等成果的方法依赖奖励/偏好模型。
- 反对声音：无。
🔥 7B模型达到o1模型性能令人惊叹，但也存在争议
- 正方观点：成果惊人。
- 反方观点：有人指出Qwen 2.5 1.5b与o1相当而非超越，且用过1.5b的人难以相信结果，还质疑1.5b除数学外的能力，有人认为基准测试有误导性。
💡 对微软新研究表示疑惑，不知自己能从中获得何种益处
- 解释：以Llama.cpp普通用户身份表示新研究没有提供给自己切实有用的信息。
💡 质疑新研究技术是否对语言模型除数学推理外的能力有提升作用
- 解释：提及是否能提升编写网页应用程序等其他方面的能力。
💡 好的论文转化为实际可用的推理引擎特性需要时间
- 解释：用推测性解码2022年提出，去年年末才落地的例子说明。

金句与有趣评论

“😂 Sam Altman taking notes in the background Junyang Lin also taking some notes… Yan Le Cun drawing something entirely unrelated while staring scornfully”
- 亮点：以幽默的想象关联微软研究成果与相关人物，构建画面感。
“🤔 While impressive, all such methods rely on having a reward/preference model, which is not as easy to develop for other fields where there are numerous possible solutions that can all be correct depending on the situation and context.”
- 亮点：指出方法依赖的模型在其他多解领域开发不易。
“👀 I’d like to see PRM/PPM aimed at solving code problems based on a nuanced human description, rather than a test question with a predetermined correct answer.”
- 亮点：表达对针对代码问题基于人类描述的PRM/PPM的期待。
“🤔 These benchmarks seem misleading.”
- 亮点：对基准测试的准确性提出质疑。
“😕 Still cannot understand, how me, a lowly LLama.cpp user can get advantage of that. No tangible information for me.”
- 亮点：以普通用户角度表达对新研究的困惑，不知自己能从中得到什么好处。

情感分析

总体情感倾向较为复杂。有惊叹成果的积极情感，也有质疑、困惑的消极情感。主要分歧点在于对成果准确性（如模型性能对比、基准测试的误导性）以及新研究实用性（如普通用户能否受益）的看法。可能的原因是不同用户的使用场景、知识背景以及对新研究的期望不同。

趋势与预测

新兴话题：新技巧下模型在GSM - Symbolic上的结果可能会引发后续讨论。
潜在影响：如果新研究成果进一步发展，可能会影响LLMs在数学推理及其他能力方面的发展方向，对相关技术领域产生推动或变革性影响。

详细内容：

《微软新研究引发Reddit热议：小型LLM在数学推理方面的突破》

在Reddit上，一则关于微软新研究“rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking”的帖子引起了广泛关注。该帖子提供了链接https://arxiv.org/abs/2501.04519，并提到Qwen2.5-Math-7B在新技巧下于MATH上达到90%的成绩，Phi3-mini-3.8B达到86.4%。此帖获得了众多点赞和大量评论，引发了关于这项研究的深入讨论。

讨论焦点与观点分析：有人指出，虽然成果令人印象深刻，但此类方法都依赖于奖励/偏好模型，这在其他领域开发起来并非易事，因为在那些领域可能存在多种视情况和背景而定的正确解决方案。还有人表示希望看到PRM/PPM针对基于微妙的人类描述来解决代码问题，而非针对有预定正确答案的测试问题。有人认为，论文中提到了通过详尽的测试案例可以验证步骤，不难想象模型会先充分理解用户提示并提出测试案例，预测代码可能失败的边缘情况，这可以应用于每个步骤和每个编写的函数。但也有人质疑，对于像“将数据存储在合适的数据库中”这种非确定性请求，任何此类方法应如何处理，因为LLM能够以多种方式实现数据层，哪种方法更好以及哪个数据存储更好并不明确。

有人指出，论文中解释了精确评估单个推理步骤的质量很难，在正确步骤之间进行排名也很模糊，人类注释不一致且有噪声，特别是在大规模情况下。因此作者提出了一种基于偏好的训练方法，挑选出导致正确答案的好步骤和导致错误答案的坏步骤，对于中间步骤和最终答案步骤采取不同的比较方式，并使用了成对排名损失的数学技巧。

有人认为，只要所选方法能解决问题，哪种方法更好并不重要，就像开始一个项目时，不会列出每种可能的实现方式并准确排名，而是根据已有的模糊想法去做，差不多就行。

有人称赞这一研究成果惊人，7B模型的表现可与o1模型相媲美。但也有人表示质疑，如有人认为Qwen 2.5 1.5b与o1相当，并非超越，有人认为某些基准测试具有误导性。还有人好奇自己作为LLama.cpp用户能否从中受益，有人希望看到在其他方面的结果，也有人尝试重现o1在数学上的结果时发现小型模型存在重复生成的问题。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#