原贴链接

嗨,r/LocalLLaMA!我们与Hugging Face合作创建了一个免费的笔记本,使用Gemma 3和GRPO来训练自己的推理模型,并且还修复了一些训练和推理方面的问题。一些框架在微调Gemma 3时会有较大的训练损失 - Unsloth应该有正确的损失!我们非常努力地让Gemma 3在推理后的免费Colab T4环境中工作,并且在旧的限于float16的GPU上Gemma 3的训练无法进行,这个问题影响了包括我们、transformers、vLLM等在内的所有框架。注意 - 这不是Gemma 3的漏洞 - 实际上我认为这是一个非常酷的特性!这是我第一次看到这种行为,这可能就是为什么Gemma 3相对于它的大小看起来极其强大的原因。我发现如果使用float16,Gemma 3会有无限激活的情况,因为float16的最大范围是65504,而Gemma 3的值达到800,000或更大,而Llama 3.1 8B的最大激活值约为324。Unsloth(https://github.com/unslothai/unsloth)现在是唯一能在FP16机器上进行Gemma 3推理和训练的框架。这意味着你现在可以通过Unsloth在Colab的免费T4 GPU实例上对Gemma 3进行GRPO、SFT、FFT等操作。请将Unsloth更新到最新版本以实现大量漏洞修复,并通过“pip install –upgrade unsloth unsloth_zoo”支持Gemma 3微调。阅读我们关于Gemma 3的修复和详细信息(https://docs.unsloth.ai/basics/tutorial - how - to - run - and - fine - tune - gemma - 3#unsloth - fine - tuning - fixes - for - gemma - 3)。这个修复也解决了在FP16中Gemma 3训练损失计算不正确的问题。我们在GRPO笔记本中选择Gemma 3(1B)是因为它的尺寸较小,这使得推理更快更容易。但你也可以通过改变模型名称来使用Gemma 3(4B)或(12B),并且它应该能在Colab上运行。对于新手,我们在这里做了一个逐步的GRPO教程(https://docs.unsloth.ai/basics/reasoning - grpo - and - rl)。这是我们的Colab笔记本:GRPO:[Gemma 3(1B)笔记本](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/HuggingFace%20Course - Gemma3_(1B)-GRPO.ipynb) - 长链接:[https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/HuggingFace%20Course - Gemma3_(1B)-GRPO.ipynb](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/HuggingFace%20Course - Gemma3_(1B)-GRPO.ipynb);普通SFT:Gemma 3(4B)笔记本。愉快地进行微调,如果有任何问题请告诉我!:)

讨论总结

原帖主要讲述了与Hugging Face合作创建免费笔记本用于训练Gemma 3推理模型、Gemma 3在不同框架和硬件环境下的问题以及Unsloth框架在Gemma 3推理和训练中的优势。评论者们大多对原帖作者的工作表示认可,同时提出了如功能添加、使用中遇到的问题寻求解决方法、对Gemma 3不同规模模型在特定方面的表现等疑问,并进行了相关技术探讨,整体氛围积极且富有建设性🧐

主要观点

  1. 👍 对原帖作者的工作成果表示认可
    • 支持理由:许多评论者用积极的话语如“AMAZING WORK!!!!!”表达钦佩,或者直接说喜爱对方团队的工作。
    • 反对声音:无
  2. 🔥 在Gemma 3使用中遇到问题并寻求解决方法
    • 正方观点:如GutenRa提到在使用Gemma - 3时遇到信息丢失和文本含义扭曲的情况,怀疑与过多的激活次数有关并寻求解决办法。
    • 反方观点:无
  3. 💡 对Gemma 3相关功能提出需求或疑问
    • 例如iliian询问是否支持视觉大语言模型与GRPO微调相结合;还有人询问27b是否能使用多GPU等。
  4. 🤔 对Gemma 3在特定环境下的运行情况表示疑问
    • 像az226质疑T4在不支持bf16的情况下运行4b模型的可行性和速度问题。
  5. 😎 原帖作者对一些问题的回应和计划
    • 例如针对4位保存功能,原帖作者表示会添加;对于Unsloth相关功能也会尽快尝试添加;还回应了关于27B可在22GB VRAM以下工作及多GPU推出的问题。

金句与有趣评论

  1. “😂 Educational_Rent1059: Can’t say it enough, AMAZING WORK!!!!!”
    • 亮点:用非常简洁且强烈的方式表达了对原帖作者工作的高度认可👍
  2. “🤔 KvAk_AKPlaysYT:I had been working on getting this to work as well and got to the point of bypassing SDPA for the mismatches, but seems like you beat me to it!”
    • 亮点:体现出在相关工作上自己的进展以及被对方抢先完成的情况,侧面反映出原帖作者工作成果的先进性💪
  3. “👀 nite2k: it’d be great to take advantage of that Unsloth magic dynamic BnB for 4bit merged :-D”
    • 亮点:提出了对利用Unsloth功能的积极看法,且表述生动有趣😄
  4. “😎 danielhanchen: Will add it in!!”
    • 亮点:原帖作者对功能添加请求的积极回应,显示出愿意满足用户需求的态度👍
  5. “🤨 GutenRa: 当使用Gemma - 3时,我注意到它会丢失提示中的一些信息并扭曲需要分析的文本的含义。”
    • 亮点:明确指出在使用Gemma - 3时遇到的问题,为后续探讨提供了基础🧐

情感分析

总体情感倾向是积极的。主要分歧点较少,大多数评论者都对原帖作者的工作表示认可和赞赏。可能的原因是原帖介绍了Gemma 3相关的成果以及在解决问题方面取得的进展,这些成果对关注相关领域的用户有积极意义😃

趋势与预测

  • 新兴话题:视觉大语言模型与GRPO微调相结合的可能性、Gemma 3不同规模模型在GRPO中的更多表现情况、27B在特定内存下的工作及多GPU使用情况等可能会引发后续讨论。
  • 潜在影响:如果这些问题得到解决或深入探讨,可能会对Gemma 3的进一步优化、相关模型在不同场景下的应用以及与其他技术的结合产生积极影响,推动相关领域技术的发展和应用的拓展🧐

详细内容:

标题:Gemma 3 GRPO 新进展及相关讨论

最近,Reddit 上一则关于 Gemma 3 GRPO 的帖子引发了热烈讨论。该帖子介绍了与 Hugging Face 合作创建的免费笔记本,用于训练自己的推理模型,还提到了对 Gemma 3 和 GRPO 的一些修复以及改进。帖子获得了众多关注,评论数众多。

主要讨论方向包括 Gemma 3 在不同环境和配置下的运行情况,以及用户提出的各种问题和期待。

文章将要探讨的核心问题是如何更好地利用 Gemma 3 进行模型训练和推理,以及解决在实际应用中出现的各种技术问题。

在讨论中,有人称赞道:“当使用 Gemma - 3 时,我注意到它会丢失提示中的一些信息并扭曲需要分析的文本的含义。我原以为问题出在标记器上,但似乎问题可能与过多的激活有关。这个问题如何解决?” 对此,有人回复“完全有可能,是的,这可能与激活有关!如果可行的话,你能否尝试在 unsloth Colab 笔记本中进行推理并跳过微调步骤,看看是否有效?谢谢!”

有人提到:“T4 仅支持 F16 所以不支持 BF16。我们本质上让 Gemma 3 能在 F16 环境下工作。速度应该类似。” 也有人询问:“27B 能否在多 GPU 环境下运行?” 得到的回复是“27B 工作在 22GB VRAM 以下,并且多 GPU 支持将在未来几周推出。”

大家在讨论中形成的共识是对作者工作的肯定和感谢,认为其工作非常出色。

特别有见地的观点比如对于 Gemma 3 性能和功能的深入探讨,丰富了讨论内容。

总之,这次关于 Gemma 3 GRPO 的讨论,充分展现了用户对于新技术的关注和探索,也为进一步完善和优化相关技术提供了有价值的思路。