嗨,[r/LocalLLaMA]社区的朋友们!我们很高兴在[Unsloth](https://github.com/unslothai/unsloth/releases/tag/2025 - 02)中引入推理功能,这样你现在就可以在本地重现R1的“顿悟”时刻。使用Qwen2.5(1.5B)来做这件事你只需要7GB的显存。1. 这是通过GRPO实现的,并且我们已经优化了整个过程使其显存使用量减少80%。在针对Llama 3.1 8B的[Colab笔记本](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Llama3.1_(8B) - GRPO.ipynb)中尝试一下吧!2. [Tiny - Zero](https://github.com/Jiayi - Pan/TinyZero)表明你可以用Qwen2.5(1.5B)实现自己的“顿悟”时刻,但它至少需要4个A100 GPU(160GB显存)。现在,使用Unsloth,你仅用一个7GB显存的GPU就能实现同样的“顿悟”时刻。3. 以前GRPO只能与FFT一起工作,但我们让它能与QLoRA和LoRA一起工作了。4. 有15GB显存的话,你可以将Phi - 4(14B)、Llama 3.1(8B)、Mistral(12B)或者任何参数不超过15B的模型转换为推理模型。更多详情请查看博客:[https://unsloth.ai/blog/r1 - reasoning](https://unsloth.ai/blog/r1 - reasoning)。|[Llama 3.1 8B Colab链接](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Llama3.1_(8B) - GRPO.ipynb)|[Phi - 4 14B Colab链接](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Phi_4_(14B) - GRPO.ipynb)|[Qwen 2.5 3B Colab链接](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen2.5_(3B) - GRPO.ipynb)| | - | - | - | Llama 8B需要约13GB | Phi - 4 14B需要约15GB | Qwen 3B需要约7GB。我绘制了一次特定运行的奖励曲线:https://llminfo.image.fangd123.cn/images/xj5rtk69fkhe1.png!/format/webp。Unsloth现在通过vLLM还拥有快20倍的推理速度!请通过以下命令更新Unsloth和vLLM:pip install --upgrade --no - cache - dir --force - reinstall unsloth_zoo unsloth vllm
。附言:感谢大家上周对我们R1 Dynamic 1.58 - bit GGUF的热爱和支持!这样的事情真的激励我们继续前行,再次感谢。祝推理愉快!
讨论总结
原帖主要介绍了Unsloth中的推理功能,包括通过GRPO可使推理模型训练仅需7GB VRAM(如Qwen2.5 1.5B),相比之前减少80% VRAM使用量,还提及之前GRPO与FFT合作现在可与QLoRA和LoRA合作、不同模型所需VRAM情况、Unsloth通过vLLM实现20倍更快的推理等。评论者们的态度大多积极,有对成果表示赞赏、感激、期待尝试的,也有很多人针对Unsloth相关的技术细节、模型适配、硬件支持等提出疑问,整体氛围较为积极活跃且充满探索性。
主要观点
- 👍 Unsloth成果受认可
- 支持理由:许多评论者如Cz1975称“Amazing work!”,rbur0425表示“This is awesome!!”等,表达对Unsloth项目的认可。
- 反对声音:无。
- 🔥 Unsloth创作者坚守项目
- 正方观点:创作者danielhanchen表示自己和兄弟虽收到收购要约,但Unsloth是他们的心血且有社区支持,所以会坚守。
- 反方观点:无。
- 💡 GRPO技术相关
- 其需要输入输出和奖励函数,对于不同类型问题奖励函数有不同的方式。
- 💡 对Unsloth硬件适用性的疑问
- 有评论者询问Unsloth是否能在特定设备如Macbook M4 Max、RTX 5090上运行。
- 💡 对模型训练的疑问与探讨
- 包括对不同模型(如Mistral Large 123B、Qwen 1.5B等)能否使用Unsloth方法训练、所需VRAM和时间的疑问,以及对特定模型添加推理功能、模型微调等的探讨。
金句与有趣评论
- “😂 iamthewhatt: Man, if Unsloth gets bought out one of these days, its going to extremely sad…”
- 亮点:表达出对Unsloth可能被收购的担忧,反映出部分用户对Unsloth项目的重视和喜爱。
- “🤔 danielhanchen: My brother and I are always here - we did get multiple offers, but decided Unsloth is our main passion - plus the community here is always extremely supportive, so we’re staying here!”
- 亮点:体现出创作者对项目的热爱以及社区支持的重要性。
- “👀 m98789: Thanks Daniel. We in the community deeply appreciate your contributions. You are helping so many people around the world.”
- 亮点:表达了社区对创作者的感激之情。
情感分析
总体情感倾向为积极,大多数评论者对Unsloth的成果表示赞赏、感激或期待。主要分歧点较少,个别疑问可能集中在技术实现细节上,如GRPO与其他技术的配合原理、不同模型使用Unsloth的可行性等。可能的原因是原帖介绍的是较新的技术成果,引发了大家的兴趣与探索欲。
趋势与预测
- 新兴话题:对Unsloth在更多模型(尤其是小模型)上的应用、功能拓展(如多轮学习、在不同语言上的推理等)可能会引发后续讨论。
- 潜在影响:如果Unsloth能够继续发展并实现如低VRAM需求等优势的广泛应用,可能会对推理模型的训练和应用产生积极的推动作用,在开源模型定制化方面也可能提供更多的思路和范例。
详细内容:
标题:Reddit 热议 Unsloth 的创新推理模型训练技术
在 Reddit 的 [r/LocalLLaMA] 板块,一篇关于 Unsloth 创新推理模型训练技术的帖子引起了广泛关注。该帖子介绍了 Unsloth 在推理模型训练方面的重大突破,获得了众多点赞和大量评论。
帖子中提到,通过 GRPO 技术,Unsloth 能够使训练过程节省 80%的 VRAM,只需 7GB 的 VRAM 就能实现 Qwen2.5(1.5B)的推理模型训练。用户可以在提供的 Colab 笔记本中尝试,还列举了不同模型所需的 VRAM 以及推理模型的转化情况。
讨论的焦点主要集中在以下几个方面:
- 对于 GRPO 技术的具体应用和实现方式,有人提出需要明确输入输出、奖励函数等要素,比如像“2+2 等于多少”这样的问题以及对应的验证方式。
- 有用户分享道:“想象你给模型‘2+2 等于多少’?它经过一番冗长的思考过程,200 个标记后,它说‘3’。你的验证器不关心(但它可以)模型创建的思维过程——如果答案是 4,+1 分。否则 -1 分。”
- 对于不同模型和 VRAM 配置的适用性存在诸多讨论,比如 Mistral 大型模型的训练需求。
- 有人说:“Llama 3.3 70B 在 48GB GPU 上适用,我认为 Mistral Larger 123B 可能在 80GB 上适用。”
- 关于如何为开放式问题设计奖励函数,用户们提出了各种想法和建议。
- 有人提到:“对于开放式问题,你可以尝试奖励函数为更长/更短的问题设置不同的分数。”
讨论中也存在一些共识,比如大家普遍认为 Unsloth 的这一创新具有很大的潜力和价值。同时,一些独特的观点如将 GRPO 应用于角色扮演模型的训练,也为讨论增添了新的视角。
总的来说,Reddit 上关于 Unsloth 推理模型训练技术的讨论热烈而深入,为相关领域的研究和应用提供了丰富的思路和参考。
感谢您的耐心阅读!来选个表情,或者留个评论吧!