原贴链接

可查看论文https://arxiv.org/abs/2501.04519。Qwen2.5 - Math - 7B通过新技术在MATH上达到90%的准确率,Phi3 - mini - 3.8B达到86.4%。

讨论总结

该讨论围绕微软新研究rStar - Math展开,这一研究使小型语言模型(LLMs)在数学推理方面取得成果,如Qwen2.5 - Math - 7B在MATH上达到90%等。评论者观点多样,有人对成果表示惊叹,有人质疑成果在不同场景或其他能力提升方面的情况,还有人表达了困惑、期待、幽默调侃等多种态度,同时也涉及到模型相关的偏好模型、测试兴趣等话题。

主要观点

  1. 👍 现有的使小型LLMs在数学推理上取得成果的方法依赖奖励/偏好模型
    • 支持理由:文中提及的Qwen2.5 - Math - 7B和Phi3 - mini - 3.8B等成果的方法依赖奖励/偏好模型。
    • 反对声音:无。
  2. 🔥 7B模型达到o1模型性能令人惊叹,但也存在争议
    • 正方观点:成果惊人。
    • 反方观点:有人指出Qwen 2.5 1.5b与o1相当而非超越,且用过1.5b的人难以相信结果,还质疑1.5b除数学外的能力,有人认为基准测试有误导性。
  3. 💡 对微软新研究表示疑惑,不知自己能从中获得何种益处
    • 解释:以Llama.cpp普通用户身份表示新研究没有提供给自己切实有用的信息。
  4. 💡 质疑新研究技术是否对语言模型除数学推理外的能力有提升作用
    • 解释:提及是否能提升编写网页应用程序等其他方面的能力。
  5. 💡 好的论文转化为实际可用的推理引擎特性需要时间
    • 解释:用推测性解码2022年提出,去年年末才落地的例子说明。

金句与有趣评论

  1. “😂 Sam Altman taking notes in the background Junyang Lin also taking some notes… Yan Le Cun drawing something entirely unrelated while staring scornfully
    • 亮点:以幽默的想象关联微软研究成果与相关人物,构建画面感。
  2. “🤔 While impressive, all such methods rely on having a reward/preference model, which is not as easy to develop for other fields where there are numerous possible solutions that can all be correct depending on the situation and context.”
    • 亮点:指出方法依赖的模型在其他多解领域开发不易。
  3. “👀 I’d like to see PRM/PPM aimed at solving code problems based on a nuanced human description, rather than a test question with a predetermined correct answer.”
    • 亮点:表达对针对代码问题基于人类描述的PRM/PPM的期待。
  4. “🤔 These benchmarks seem misleading.”
    • 亮点:对基准测试的准确性提出质疑。
  5. “😕 Still cannot understand, how me, a lowly LLama.cpp user can get advantage of that. No tangible information for me.”
    • 亮点:以普通用户角度表达对新研究的困惑,不知自己能从中得到什么好处。

情感分析

总体情感倾向较为复杂。有惊叹成果的积极情感,也有质疑、困惑的消极情感。主要分歧点在于对成果准确性(如模型性能对比、基准测试的误导性)以及新研究实用性(如普通用户能否受益)的看法。可能的原因是不同用户的使用场景、知识背景以及对新研究的期望不同。

趋势与预测

  • 新兴话题:新技巧下模型在GSM - Symbolic上的结果可能会引发后续讨论。
  • 潜在影响:如果新研究成果进一步发展,可能会影响LLMs在数学推理及其他能力方面的发展方向,对相关技术领域产生推动或变革性影响。

详细内容:

《微软新研究引发Reddit热议:小型LLM在数学推理方面的突破》

在Reddit上,一则关于微软新研究“rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking”的帖子引起了广泛关注。该帖子提供了链接https://arxiv.org/abs/2501.04519,并提到Qwen2.5-Math-7B在新技巧下于MATH上达到90%的成绩,Phi3-mini-3.8B达到86.4%。此帖获得了众多点赞和大量评论,引发了关于这项研究的深入讨论。

讨论焦点与观点分析: 有人指出,虽然成果令人印象深刻,但此类方法都依赖于奖励/偏好模型,这在其他领域开发起来并非易事,因为在那些领域可能存在多种视情况和背景而定的正确解决方案。还有人表示希望看到PRM/PPM针对基于微妙的人类描述来解决代码问题,而非针对有预定正确答案的测试问题。有人认为,论文中提到了通过详尽的测试案例可以验证步骤,不难想象模型会先充分理解用户提示并提出测试案例,预测代码可能失败的边缘情况,这可以应用于每个步骤和每个编写的函数。但也有人质疑,对于像“将数据存储在合适的数据库中”这种非确定性请求,任何此类方法应如何处理,因为LLM能够以多种方式实现数据层,哪种方法更好以及哪个数据存储更好并不明确。

有人指出,论文中解释了精确评估单个推理步骤的质量很难,在正确步骤之间进行排名也很模糊,人类注释不一致且有噪声,特别是在大规模情况下。因此作者提出了一种基于偏好的训练方法,挑选出导致正确答案的好步骤和导致错误答案的坏步骤,对于中间步骤和最终答案步骤采取不同的比较方式,并使用了成对排名损失的数学技巧。

有人认为,只要所选方法能解决问题,哪种方法更好并不重要,就像开始一个项目时,不会列出每种可能的实现方式并准确排名,而是根据已有的模糊想法去做,差不多就行。

有人称赞这一研究成果惊人,7B模型的表现可与o1模型相媲美。但也有人表示质疑,如有人认为Qwen 2.5 1.5b与o1相当,并非超越,有人认为某些基准测试具有误导性。还有人好奇自己作为LLama.cpp用户能否从中受益,有人希望看到在其他方面的结果,也有人尝试重现o1在数学上的结果时发现小型模型存在重复生成的问题。