原贴链接

讨论总结

本次讨论围绕Microsoft发布的Self-play muTuAl Reasoning (rStar)代码展开，涵盖了代码的核心机制、独立实现、名称调侃以及潜在的欺诈问题。讨论中，用户深入分析了rStar如何通过两个自监督学习模型增强蒙特卡洛树搜索，并探讨了鉴别器模型的选择和效果。此外，部分用户对代码名称“self play”表示调侃，认为其过于随意。还有一些用户对代码的实现和作者的诚信提出了质疑，认为存在欺诈行为。总体而言，讨论技术性强，且不乏幽默和争议。

主要观点

👍 rStar通过两个SLM增强MCTS，生成和验证推理轨迹
- 支持理由：评论者详细解释了rStar的工作原理，认为其通过两个自监督学习模型实现了高效的推理。
- 反对声音：无明显反对声音，但有用户对鉴别器模型的选择提出了疑问。
🔥 鉴别器模型Phi-3-mini-4k-instruct可能始终被使用
- 正方观点：有用户认为Phi-3-mini-4k-instruct作为鉴别器在实践中效果良好。
- 反方观点：有用户对鉴别器模型的选择表示疑问，认为可能存在其他更好的选择。
💡 作者独立实现了Microsoft’s rStar代码，并分享了GitHub链接
- 解释：一位用户分享了自己独立实现的rStar代码，并讨论了其实践效果。
😂 评论者对“self play”这个名称表示调侃，认为可以有更多选择
- 解释：部分用户对代码名称表示幽默解读，认为其过于随意。
🤔 评论者认为rStar代码的实现存在问题，且作者的声明具有欺诈性
- 解释：有用户对代码的实现和作者的诚信提出了质疑，认为存在欺诈行为。

金句与有趣评论

“😂 Self play…they could have chosen any name…but they chose self play. Oraaite”
- 亮点：用户对代码名称的幽默解读，增加了讨论的趣味性。
“🤔 If I’m reading the scripts right, the discriminator is always Phi-3-mini-4k-instruct?”
- 亮点：用户对鉴别器模型选择的疑问，引发了进一步的技术讨论。
“👀 He took some basic concepts that real researchers have been testing in much more thoughtful ways for a while, implemented it poorly, made fraudulent claims, tried to pass off Claude with a poorly written system prompt hidden behind an API as his own model, and tried to shill his company.”
- 亮点：用户对代码实现和作者诚信的质疑，引发了关于欺诈行为的讨论。

情感分析

讨论的总体情感倾向较为复杂，既有对技术细节的深入探讨，也有对代码名称的幽默调侃，以及对作者诚信的质疑。主要分歧点在于鉴别器模型的选择和代码实现的诚信问题。可能的原因包括用户对新技术的好奇心与对潜在欺诈行为的警惕。

趋势与预测

新兴话题：鉴别器模型的选择和效果可能会引发更多后续讨论。
潜在影响：rStar代码的发布可能会推动自监督学习模型和蒙特卡洛树搜索技术的发展，但同时也可能引发对技术诚信和透明度的更多关注。

详细内容：

《微软的 Self-play muTuAl Reasoning (rStar) 代码在 Github 引发热议》

近日，Reddit 上一则关于微软的 Self-play muTuAl Reasoning (rStar) 代码在 Github 上开源的帖子引起了广泛关注。该帖子提供的链接为：https://github.com/zhentingqi/rStar ，获得了众多网友的点赞和评论。

帖子引发了关于 rStar 技术的多个方面的讨论。有人指出，目标 SLM 借助丰富的类人推理动作增强了蒙特卡罗树搜索（MCTS），以构建更高质量的推理轨迹，而另一个类似的 SLM 作为判别器来验证目标 SLM 生成的每条轨迹，相互认同的推理轨迹被认为是相互一致的，因而更可能是正确的。还有人好奇在每次测试中判别器是否总是 Phi-3-mini-4k-instruct ，并提到模型@maj 与模型加上判别器的情况可能表明判别器本身是“好的”。

有用户分享了一张详细的表格图片，展示了不同模型作为判别器的效果评估，其中“Ours 鉴别器在所有情况下都表现最好，而 GPT-4 (2024-05-01)模型则有最高的准确率 92.57%”。

有人提出值得注意的是判别器答案中的方差不明确。例如，当在自己的用例中尝试（使用 7b mistral）时，发现小模型在判别器结果中可能有显著的方差，比如对一个问题生成多个候选，然后对每个候选运行判别器 10 次，答案的一致性如何。并且质疑如果每次运行答对和答错的问题都不同，但总体基准分数大致相同，那么对于实际应用来说可能并不太有用。

还有用户分享了自己的独立实现经历，称使用相同模型作为判别器在实践中效果也不错。也有人对其表示称赞，并询问相关模型是否是微调的。

此外，对于这项技术的名称也有一些有趣的讨论，有人觉得“Self play”这个名字有点特别，容易让人联想到自己和自己下棋。

关于这项技术，有人虽然不完全理解其工作原理，但通过提示进行了尝试，认为可能还有改进的空间。也有人认为其中存在一些真实的原理，但同时指出存在实施不佳、虚假声明等问题。

这场讨论中的核心争议点在于判别器的效果和稳定性，以及技术的实际应用价值。不同观点的碰撞让人们对微软的这项技术有了更全面的认识，但目前对于其未来的发展和应用，还需要更多的研究和实践来验证。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#