原贴链接

嗨，[r/LocalLLaMA]社区的朋友们！我们很高兴在[Unsloth](https://github.com/unslothai/unsloth/releases/tag/2025 - 02)中引入推理功能，这样你现在就可以在本地重现R1的“顿悟”时刻。使用Qwen2.5（1.5B）来做这件事你只需要7GB的显存。1. 这是通过GRPO实现的，并且我们已经优化了整个过程使其显存使用量减少80%。在针对Llama 3.1 8B的[Colab笔记本](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Llama3.1_(8B) - GRPO.ipynb)中尝试一下吧！2. [Tiny - Zero](https://github.com/Jiayi - Pan/TinyZero)表明你可以用Qwen2.5（1.5B）实现自己的“顿悟”时刻，但它至少需要4个A100 GPU（160GB显存）。现在，使用Unsloth，你仅用一个7GB显存的GPU就能实现同样的“顿悟”时刻。3. 以前GRPO只能与FFT一起工作，但我们让它能与QLoRA和LoRA一起工作了。4. 有15GB显存的话，你可以将Phi - 4（14B）、Llama 3.1（8B）、Mistral（12B）或者任何参数不超过15B的模型转换为推理模型。更多详情请查看博客：[https://unsloth.ai/blog/r1 - reasoning](https://unsloth.ai/blog/r1 - reasoning)。|[Llama 3.1 8B Colab链接](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Llama3.1_(8B) - GRPO.ipynb)|[Phi - 4 14B Colab链接](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Phi_4_(14B) - GRPO.ipynb)|[Qwen 2.5 3B Colab链接](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen2.5_(3B) - GRPO.ipynb)| | - | - | - | Llama 8B需要约13GB | Phi - 4 14B需要约15GB | Qwen 3B需要约7GB。我绘制了一次特定运行的奖励曲线：https://llminfo.image.fangd123.cn/images/xj5rtk69fkhe1.png!/format/webp。Unsloth现在通过vLLM还拥有快20倍的推理速度！请通过以下命令更新Unsloth和vLLM：pip install --upgrade --no - cache - dir --force - reinstall unsloth_zoo unsloth vllm。附言：感谢大家上周对我们R1 Dynamic 1.58 - bit GGUF的热爱和支持！这样的事情真的激励我们继续前行，再次感谢。祝推理愉快！

讨论总结

原帖主要介绍了Unsloth中的推理功能，包括通过GRPO可使推理模型训练仅需7GB VRAM（如Qwen2.5 1.5B），相比之前减少80% VRAM使用量，还提及之前GRPO与FFT合作现在可与QLoRA和LoRA合作、不同模型所需VRAM情况、Unsloth通过vLLM实现20倍更快的推理等。评论者们的态度大多积极，有对成果表示赞赏、感激、期待尝试的，也有很多人针对Unsloth相关的技术细节、模型适配、硬件支持等提出疑问，整体氛围较为积极活跃且充满探索性。

主要观点

👍 Unsloth成果受认可
- 支持理由：许多评论者如Cz1975称“Amazing work!”，rbur0425表示“This is awesome!!”等，表达对Unsloth项目的认可。
- 反对声音：无。
🔥 Unsloth创作者坚守项目
- 正方观点：创作者danielhanchen表示自己和兄弟虽收到收购要约，但Unsloth是他们的心血且有社区支持，所以会坚守。
- 反方观点：无。
💡 GRPO技术相关
- 其需要输入输出和奖励函数，对于不同类型问题奖励函数有不同的方式。
💡 对Unsloth硬件适用性的疑问
- 有评论者询问Unsloth是否能在特定设备如Macbook M4 Max、RTX 5090上运行。
💡 对模型训练的疑问与探讨
- 包括对不同模型（如Mistral Large 123B、Qwen 1.5B等）能否使用Unsloth方法训练、所需VRAM和时间的疑问，以及对特定模型添加推理功能、模型微调等的探讨。

金句与有趣评论

“😂 iamthewhatt: Man, if Unsloth gets bought out one of these days, its going to extremely sad…”
- 亮点：表达出对Unsloth可能被收购的担忧，反映出部分用户对Unsloth项目的重视和喜爱。
“🤔 danielhanchen: My brother and I are always here - we did get multiple offers, but decided Unsloth is our main passion - plus the community here is always extremely supportive, so we’re staying here!”
- 亮点：体现出创作者对项目的热爱以及社区支持的重要性。
“👀 m98789: Thanks Daniel. We in the community deeply appreciate your contributions. You are helping so many people around the world.”
- 亮点：表达了社区对创作者的感激之情。

情感分析

总体情感倾向为积极，大多数评论者对Unsloth的成果表示赞赏、感激或期待。主要分歧点较少，个别疑问可能集中在技术实现细节上，如GRPO与其他技术的配合原理、不同模型使用Unsloth的可行性等。可能的原因是原帖介绍的是较新的技术成果，引发了大家的兴趣与探索欲。

趋势与预测

新兴话题：对Unsloth在更多模型（尤其是小模型）上的应用、功能拓展（如多轮学习、在不同语言上的推理等）可能会引发后续讨论。
潜在影响：如果Unsloth能够继续发展并实现如低VRAM需求等优势的广泛应用，可能会对推理模型的训练和应用产生积极的推动作用，在开源模型定制化方面也可能提供更多的思路和范例。

详细内容：

标题：Reddit 热议 Unsloth 的创新推理模型训练技术

在 Reddit 的 [r/LocalLLaMA] 板块，一篇关于 Unsloth 创新推理模型训练技术的帖子引起了广泛关注。该帖子介绍了 Unsloth 在推理模型训练方面的重大突破，获得了众多点赞和大量评论。

帖子中提到，通过 GRPO 技术，Unsloth 能够使训练过程节省 80%的 VRAM，只需 7GB 的 VRAM 就能实现 Qwen2.5（1.5B）的推理模型训练。用户可以在提供的 Colab 笔记本中尝试，还列举了不同模型所需的 VRAM 以及推理模型的转化情况。

讨论的焦点主要集中在以下几个方面：

对于 GRPO 技术的具体应用和实现方式，有人提出需要明确输入输出、奖励函数等要素，比如像“2+2 等于多少”这样的问题以及对应的验证方式。
- 有用户分享道：“想象你给模型‘2+2 等于多少’？它经过一番冗长的思考过程，200 个标记后，它说‘3’。你的验证器不关心（但它可以）模型创建的思维过程——如果答案是 4，+1 分。否则 -1 分。”
对于不同模型和 VRAM 配置的适用性存在诸多讨论，比如 Mistral 大型模型的训练需求。
- 有人说：“Llama 3.3 70B 在 48GB GPU 上适用，我认为 Mistral Larger 123B 可能在 80GB 上适用。”
关于如何为开放式问题设计奖励函数，用户们提出了各种想法和建议。
- 有人提到：“对于开放式问题，你可以尝试奖励函数为更长/更短的问题设置不同的分数。”

讨论中也存在一些共识，比如大家普遍认为 Unsloth 的这一创新具有很大的潜力和价值。同时，一些独特的观点如将 GRPO 应用于角色扮演模型的训练，也为讨论增添了新的视角。

总的来说，Reddit 上关于 Unsloth 推理模型训练技术的讨论热烈而深入，为相关领域的研究和应用提供了丰富的思路和参考。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#