嘿,r/LocalLLaMA的朋友们!非常感谢两周前我们的GRPO版本发布时得到的支持!今天,我们很高兴地宣布,现在你们可以只用5GB显存来训练自己的推理模型Qwen2.5(1.5B),相比之前Unsloth版本的7GB显存已经减少了!1. 这要归功于我们新推出的高效GRPO算法,与其他所有GRPO LoRA/QLoRA实现(即使是那些使用Flash Attention 2(FA2)的)相比,它能实现10倍长的上下文长度,同时使用的显存减少90%。2. 使用TRL+FA2的GRPO设置,在20K上下文长度下训练Llama 3.1(8B)需要510.8G显存。然而,Unsloth减少90%的显存后,在相同设置下需求仅为54.3GB。3. 我们利用了之前发布的[梯度检查点](https://unsloth.ai/blog/long - context)算法。它能巧妙地异步将中间激活卸载到系统内存,且只慢1%。这大大节省了372GB显存,因为我们需要num_generations = 8。我们可以通过中间梯度累积进一步减少这种内存使用。4. 我们还实现了一个非常节省内存的GRPO损失,内存使用节省了8倍。之前20K上下文长度需要78GB,现在仅需10GB!5. 尝试我们具有10倍长上下文的免费GRPO笔记本:Colab上的Llama 3.1(8B):https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Llama3.1_(8B) - GRPO.ipynb。有关算法、GRPO背后的数学原理、我们发现的问题等更多细节的博客:https://unsloth.ai/blog/grpo。GRPO显存明细:|指标|Unsloth|TRL + FA2| |: - |: - |: - | |训练内存成本(GB)|42GB|414GB| |GRPO内存成本(GB)|9.8GB|78.3GB| |推理成本(GB)|0GB|16GB| |20K上下文的推理KV缓存(GB)|2.5GB|2.5GB| |总内存使用|54.3GB(减少90%)|510.8GB| 我们现在也提供所有奖励函数的完整日志细节!之前我们只显示总的聚合奖励函数本身。现在你可以在vLLM中直接运行并进行我们的[4位动态量化](https://unsloth.ai/blog/dynamic - 4bit)推理。另外,我们花了很多时间在关于GRPO +奖励函数/验证器的所有指南上,所以非常推荐你们阅读它:[docs.unsloth.ai/basics/reasoning](https://docs.unsloth.ai/basics/reasoning - grpo - and - rl)。再次感谢大家的支持,这对我们意义非凡!我们在接下来的几周内还会有一个重大发布,我知道你们一直在期待,我们也很兴奋!
讨论总结
原帖发布了Unsloth在推理训练方面的成果,如用更少VRAM训练模型、新算法、更长上下文、低内存占用的GRPO损失等。评论者们的反应多为积极正面,许多人表达了对Unsloth团队的感谢和认可。同时,也有大量针对Unsloth在不同方面的提问,例如其对多GPU的支持、特定模型或硬件的支持、不同训练场景下的效益、最小数据规模等,还有部分评论者分享了自己使用Unsloth相关产品的体验。
主要观点
- 👍 Unsloth的成果对GPU资源不充裕者有意义,开发团队值得感谢
- 支持理由:Unsloth带来改进,开发团队努力使改进成为可能,对资源有限用户有积极意义。
- 反对声音:无
- 🔥 Unsloth取得进步值得认可,但也存在一些疑问
- 正方观点:如在VRAM使用等方面取得进步,成果很棒。
- 反方观点:无,但有很多关于功能支持、训练场景等方面的疑问。
- 💡 使用GRPO训练笔记本体验良好
- 解释:有人用该笔记本让特定模型在48GB显存下微调,得到很好结果。
- 🤔 Unsloth目前可能仍局限于单个GPU,但多GPU功能正在开发
- 解释:有评论者询问并得到这样的答复。
- 😎 小模型在一定条件下也能有推理能力
- 解释:有评论者发现0.5B小模型无外力强迫下可推理,也有人解释原因。
金句与有趣评论
- “😂 As always, the unsloth delivers improvements for us GPU poors.”
- 亮点:用诙谐的说法表达Unsloth对GPU资源少的人的帮助。
- “🤔 Thank you! Amazing progress!”
- 亮点:简洁地表达对Unsloth进步的认可。
- “👀 Awesome stuff, I’ve been using your GRPO training notebook and the results have been fantastic.”
- 亮点:分享使用体验,正面评价GRPO训练笔记本。
- “😏 I even managed to make a mistral small and Qwen 2.5 32B finetune fit on 48GB of vram.”
- 亮点:具体展示利用GRPO训练笔记本达成的成果。
- “😊 Seeing the reasoning emerge from a small 0.5B model without being forced is actually so exciting!”
- 亮点:表达对小模型推理能力出现的惊喜。
情感分析
总体情感倾向为正面,大多数评论者对Unsloth的成果表示认可和感谢。主要分歧点在于对Unsloth一些技术细节方面的疑问,如功能支持、资源使用、训练场景等,可能是因为这些技术内容较为复杂,而评论者希望深入了解其在不同需求下的适用性。
趋势与预测
- 新兴话题:关于不同类型奖励函数的讨论,以及小模型在推理训练中的潜力探究可能引发后续讨论。
- 潜在影响:如果Unsloth在多GPU支持、不同硬件或模型的兼容等方面不断完善,可能会在本地LLaMA相关的推理训练领域推动更多用户尝试和应用其技术成果,对相关的模型训练和开发产生积极影响。
详细内容:
标题:Unsloth 的重大突破:10 倍更长上下文与 90%更少内存的 GRPO
在 Reddit 的 r/LocalLLaMA 版块,一则关于 Unsloth 的帖子引起了广泛关注。这篇帖子介绍了 Unsloth 在推理模型训练方面的最新成果,获得了众多点赞和大量评论。
帖子主要内容是 Unsloth 如今能让用户仅用 5GB VRAM 就能为 Qwen2.5(1.5B)训练自己的推理模型,而此前需要 7GB。这得益于新推出的高效 GRPO 算法,它能实现 10 倍更长的上下文长度,同时比其他 GRPO LoRA/QLoRA 实现节省 90%的 VRAM。文中还详细列出了各种模型和设置下的 VRAM 需求对比。此外,提供了多个相关链接,如用于免费 GRPO 笔记本的链接、关于算法的博客等。
讨论的焦点主要集中在以下几个方面: 有人表示 Unsloth 为 GPU 资源有限的用户带来了巨大改进,并感谢团队的努力。有人询问 Unsloth 库是否支持模型的完整训练、多 GPU 支持情况等问题。还有人分享了自己使用 Unsloth 的 GRPO 训练笔记本的成功经历,比如成功让小模型进行推理。
有用户分享道:“Awesome stuff, I’ve been using your GRPO training notebook and the results have been fantastic. I even managed to make a mistral small and Qwen 2.5 32B finetune fit on 48GB of vram. Your work is awesome!”
有人对多 GPU 支持表达了期待,称即使只支持 2 或 4 个 GPU 也会有很大帮助。有人询问是否支持 AMD ROCm 和 FP16 训练等特定技术。
讨论中的共识是 Unsloth 的工作令人称赞,期待更多功能的推出。
特别有见地的观点如,有人惊讶于小模型在良好的奖励函数和足够计算时间下仍能较好地学习推理。
总的来说,Unsloth 的这次更新引发了热烈讨论,大家对其未来发展充满期待。
感谢您的耐心阅读!来选个表情,或者留个评论吧!