原贴链接

嗨，r/LocalLLaMA！我们与Hugging Face合作创建了一个免费的笔记本，使用Gemma 3和GRPO来训练自己的推理模型，并且还修复了一些训练和推理方面的问题。一些框架在微调Gemma 3时会有较大的训练损失 - Unsloth应该有正确的损失！我们非常努力地让Gemma 3在推理后的免费Colab T4环境中工作，并且在旧的限于float16的GPU上Gemma 3的训练无法进行，这个问题影响了包括我们、transformers、vLLM等在内的所有框架。注意 - 这不是Gemma 3的漏洞 - 实际上我认为这是一个非常酷的特性！这是我第一次看到这种行为，这可能就是为什么Gemma 3相对于它的大小看起来极其强大的原因。我发现如果使用float16，Gemma 3会有无限激活的情况，因为float16的最大范围是65504，而Gemma 3的值达到800,000或更大，而Llama 3.1 8B的最大激活值约为324。Unsloth（https://github.com/unslothai/unsloth）现在是唯一能在FP16机器上进行Gemma 3推理和训练的框架。这意味着你现在可以通过Unsloth在Colab的免费T4 GPU实例上对Gemma 3进行GRPO、SFT、FFT等操作。请将Unsloth更新到最新版本以实现大量漏洞修复，并通过“pip install –upgrade unsloth unsloth_zoo”支持Gemma 3微调。阅读我们关于Gemma 3的修复和详细信息（https://docs.unsloth.ai/basics/tutorial - how - to - run - and - fine - tune - gemma - 3#unsloth - fine - tuning - fixes - for - gemma - 3）。这个修复也解决了在FP16中Gemma 3训练损失计算不正确的问题。我们在GRPO笔记本中选择Gemma 3（1B）是因为它的尺寸较小，这使得推理更快更容易。但你也可以通过改变模型名称来使用Gemma 3（4B）或（12B），并且它应该能在Colab上运行。对于新手，我们在这里做了一个逐步的GRPO教程（https://docs.unsloth.ai/basics/reasoning - grpo - and - rl）。这是我们的Colab笔记本：GRPO：[Gemma 3（1B）笔记本](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/HuggingFace%20Course - Gemma3_(1B)-GRPO.ipynb) - 长链接：[https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/HuggingFace%20Course - Gemma3_(1B)-GRPO.ipynb](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/HuggingFace%20Course - Gemma3_(1B)-GRPO.ipynb)；普通SFT：Gemma 3（4B）笔记本。愉快地进行微调，如果有任何问题请告诉我！:)

讨论总结

原帖主要讲述了与Hugging Face合作创建免费笔记本用于训练Gemma 3推理模型、Gemma 3在不同框架和硬件环境下的问题以及Unsloth框架在Gemma 3推理和训练中的优势。评论者们大多对原帖作者的工作表示认可，同时提出了如功能添加、使用中遇到的问题寻求解决方法、对Gemma 3不同规模模型在特定方面的表现等疑问，并进行了相关技术探讨，整体氛围积极且富有建设性🧐

主要观点

👍 对原帖作者的工作成果表示认可
- 支持理由：许多评论者用积极的话语如“AMAZING WORK!!!!!”表达钦佩，或者直接说喜爱对方团队的工作。
- 反对声音：无
🔥 在Gemma 3使用中遇到问题并寻求解决方法
- 正方观点：如GutenRa提到在使用Gemma - 3时遇到信息丢失和文本含义扭曲的情况，怀疑与过多的激活次数有关并寻求解决办法。
- 反方观点：无
💡 对Gemma 3相关功能提出需求或疑问
- 例如iliian询问是否支持视觉大语言模型与GRPO微调相结合；还有人询问27b是否能使用多GPU等。
🤔 对Gemma 3在特定环境下的运行情况表示疑问
- 像az226质疑T4在不支持bf16的情况下运行4b模型的可行性和速度问题。
😎 原帖作者对一些问题的回应和计划
- 例如针对4位保存功能，原帖作者表示会添加；对于Unsloth相关功能也会尽快尝试添加；还回应了关于27B可在22GB VRAM以下工作及多GPU推出的问题。

金句与有趣评论

“😂 Educational_Rent1059: Can’t say it enough, AMAZING WORK!!!!!”
- 亮点：用非常简洁且强烈的方式表达了对原帖作者工作的高度认可👍
“🤔 KvAk_AKPlaysYT：I had been working on getting this to work as well and got to the point of bypassing SDPA for the mismatches, but seems like you beat me to it!”
- 亮点：体现出在相关工作上自己的进展以及被对方抢先完成的情况，侧面反映出原帖作者工作成果的先进性💪
“👀 nite2k: it’d be great to take advantage of that Unsloth magic dynamic BnB for 4bit merged :-D”
- 亮点：提出了对利用Unsloth功能的积极看法，且表述生动有趣😄
“😎 danielhanchen: Will add it in!!”
- 亮点：原帖作者对功能添加请求的积极回应，显示出愿意满足用户需求的态度👍
“🤨 GutenRa: 当使用Gemma - 3时，我注意到它会丢失提示中的一些信息并扭曲需要分析的文本的含义。”
- 亮点：明确指出在使用Gemma - 3时遇到的问题，为后续探讨提供了基础🧐

情感分析

总体情感倾向是积极的。主要分歧点较少，大多数评论者都对原帖作者的工作表示认可和赞赏。可能的原因是原帖介绍了Gemma 3相关的成果以及在解决问题方面取得的进展，这些成果对关注相关领域的用户有积极意义😃

趋势与预测

新兴话题：视觉大语言模型与GRPO微调相结合的可能性、Gemma 3不同规模模型在GRPO中的更多表现情况、27B在特定内存下的工作及多GPU使用情况等可能会引发后续讨论。
潜在影响：如果这些问题得到解决或深入探讨，可能会对Gemma 3的进一步优化、相关模型在不同场景下的应用以及与其他技术的结合产生积极影响，推动相关领域技术的发展和应用的拓展🧐

详细内容：

标题：Gemma 3 GRPO 新进展及相关讨论

最近，Reddit 上一则关于 Gemma 3 GRPO 的帖子引发了热烈讨论。该帖子介绍了与 Hugging Face 合作创建的免费笔记本，用于训练自己的推理模型，还提到了对 Gemma 3 和 GRPO 的一些修复以及改进。帖子获得了众多关注，评论数众多。

主要讨论方向包括 Gemma 3 在不同环境和配置下的运行情况，以及用户提出的各种问题和期待。

文章将要探讨的核心问题是如何更好地利用 Gemma 3 进行模型训练和推理，以及解决在实际应用中出现的各种技术问题。

在讨论中，有人称赞道：“当使用 Gemma - 3 时，我注意到它会丢失提示中的一些信息并扭曲需要分析的文本的含义。我原以为问题出在标记器上，但似乎问题可能与过多的激活有关。这个问题如何解决？” 对此，有人回复“完全有可能，是的，这可能与激活有关！如果可行的话，你能否尝试在 unsloth Colab 笔记本中进行推理并跳过微调步骤，看看是否有效？谢谢！”

有人提到：“T4 仅支持 F16 所以不支持 BF16。我们本质上让 Gemma 3 能在 F16 环境下工作。速度应该类似。” 也有人询问：“27B 能否在多 GPU 环境下运行？” 得到的回复是“27B 工作在 22GB VRAM 以下，并且多 GPU 支持将在未来几周推出。”

大家在讨论中形成的共识是对作者工作的肯定和感谢，认为其工作非常出色。

特别有见地的观点比如对于 Gemma 3 性能和功能的深入探讨，丰富了讨论内容。

总之，这次关于 Gemma 3 GRPO 的讨论，充分展现了用户对于新技术的关注和探索，也为进一步完善和优化相关技术提供了有价值的思路。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#