原贴链接

大家好！今天快速发个帖，现在这里已经凌晨2点了，我真的该睡觉了😂。所以有人（@ActuallyIsaak）设法让GRPO算法的一个原型在MLX中运行起来了，你可以在[这里](https://github.com/ml - explore/mlx - examples/pull/1233)查看草稿。我花了一点时间摆弄了一下，只用了三个手写样本，我就设法让Phi - 14b实现了这个思维链（CoT）！不仅如此，它还能够完美地回忆一些事实信息，并据此进行归纳。有趣的是，在我的第一个版本中（我没有加入思维链）没有得到这种归纳行为，在那个版本中它经常产生幻觉，想象出其他马克·洛德（Mark Lord）——经常出于某种原因，想象出一个60岁的商人，哈哈。

讨论总结

原帖作者介绍了使用原型MLX - GRPO训练器将Phi - 14b变成原始推理器的成果，包括仅用三个手写样本就让模型实现了特定能力，并分享了实验中的惊喜时刻、低功耗等情况。评论者们表达了对作者工作的感谢、对成果意义的肯定，也提出了如基准测试、在Mac上微调LLMs等疑问，并分享了自己构建训练器的经历等，整体氛围积极且在技术探索上较为深入。

主要观点

👍 已在鸟站半记录实验，信息可供他人重现实验
- 支持理由：作者提供了相关链接，方便他人获取信息重现。
- 反对声音：无。
🔥 原帖工作对构建MLX - GRPO训练器有很大帮助
- 正方观点：Ruiner花费数小时构建自己的训练器，原帖提供了帮助。
- 反方观点：无。
💡 单轮样本下模型能实现多轮连贯思考，模型具有很强的通用推理能力
- 解释：作者mark - lord通过自己的实验发现这一现象，并对模型处理特定提示的表现印象深刻。
💡 复现相关成果意义重大
- 解释：这一成果在技术发展上是一个进步，得到部分评论者的肯定。
💡 MLX目前缺乏良好的评估工具
- 解释：在讨论基准测试时，作者mark - lord提到目前MLX在这方面存在不足。

金句与有趣评论

“😂我在鸟站半记录了我的实验 - [https://x.com/priontific/status/1886592330683035992]”
- 亮点：提供了实验记录的获取途径。
“🤔如果不需要使用大的数据集就能得到领域专家，我想我们将看到整个LLM供应商生态系统陷入重大恐慌。”
- 亮点：提出了一种对LLM供应商生态系统的有趣设想。
“👀实验中有个小惊喜时刻，模型说“啊，对了 - 我想起来了！””
- 亮点：生动描述了实验中的惊喜瞬间。
“😂Pahaha same 😂 Spent all of last week trying to get it working, all I had to show for it was a script that filled up my RAM but did no training ahahaha”
- 亮点：幽默地分享了构建训练器失败的经历。
“🤔Oh, and in case anyone’s interested, even though my 3(!) samples in my dataset were single - turn only, the model managed to pull off coherent multi - turn without a problem.”
- 亮点：阐述了模型在样本情况下的推理能力表现。

情感分析

总体情感倾向为积极。主要分歧点较少，大多数评论者都对原帖作者的成果表示肯定或感兴趣。可能的原因是这一成果在技术领域具有一定的创新性和探索性，吸引了有相同兴趣的人积极参与讨论。但也存在个别隐晦且带有负面推测（如不让告知中国的评论）的情况，不过不影响整体积极的氛围。

趋势与预测

新兴话题：在Mac上对LLMs进行微调可能会引发更多的讨论，包括如何更好地利用相关文件和工具进行操作等。
潜在影响：如果类似不需要大的数据集就能训练出领域专家的情况成为现实，将对LLM供应商生态系统产生重大影响，可能会促使供应商调整策略，也可能会改变整个行业的发展方向。

详细内容：

标题：利用原型 MLX-GRPO 训练器将 Phi-14b 转化为（原始）推理器引发的热议

在 Reddit 上，一篇题为“I made Phi-14b into a (primitive) reasoner using a prototype MLX-GRPO trainer”的帖子引起了广泛关注。该帖子在凌晨 2 点发出，作者称仅用三个手写样本，就成功让 Phi-14b 实现了相关的推理，并且它还能完美回忆一些事实信息并进行概括。此帖获得了众多点赞和大量评论。

帖子引发的主要讨论方向集中在这项成果的实际意义、与其他技术的比较以及未来的发展前景等方面。文章将要探讨的核心问题是这一成果究竟是具有重大突破意义的创新，还是仅仅是概念性的初步尝试。

讨论焦点与观点分析：有人指出 M1 Max 的性能相较 8*mi300x gpus 等较弱，猜测这更像是概念验证而非基于数据集的训练。但也有人认为，LLM 用纯 RL 训练或许意味着不再需要大型数据集就能获得领域专家。有人分享了自己在这方面的实验经历，称花费了上周所有时间尝试让其运行，最终却只有一个占用内存却未进行训练的脚本。还有人提到即使数据集中的 3 个样本是单轮的，模型也能毫无问题地进行连贯的多轮思考，展现出强大的通用推理能力。

有人表示 Deepseek 似乎破解了代码，这令人着迷，不禁让人思考 LLM 在经过一些 RL 后还能有何其他能力。也有人好奇与基础模型相比，基准测试的情况如何，但目前还没有很好的评估工具。还有人询问这是否意味着可以在 Mac 上微调 LLM，得到了肯定的答复，并提供了相关的链接。

总之，这次的成果在 Reddit 上引发了热烈讨论，既有对其创新性的肯定，也有对其局限性和实际应用效果的思考。未来 LLM 领域的发展究竟会走向何方，令人期待。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#