原贴链接

嘿,大家好!现在在24GB GPU上使用Unsloth对Gemma 3(12B)进行微调,相比Hugging Face + FA2,上下文长度可提升至6倍。27B也能在24GB内存中运行。

我们还发现,在旧的GPU(Tesla T4s、RTX 2080)上使用float16对Gemma 3进行运算时会出现无限梯度爆炸问题。在新的GPU(如A100s)使用float16时也有同样的问题 - 我在Unsloth中自动修复了这个问题!

  • 还存在双BOS标记会破坏Gemma 3的微调 - Unsloth也会自动纠正这个问题!

  • Unsloth现在支持所有内容。这包括完全微调、预训练以及对所有模型(如Mixtral、MoEs、Cohere等模型)和算法(如DoRA)的支持。

    model, tokenizer = FastModel.from_pretrained( model_name = “unsloth/gemma - 3 - 4B - it”, load_in_4bit = true, load_in_8bit = false, // [新功能!] 8bit full_finetuning = false, // [新功能!] 我们现在有完全微调功能了! )

  • Gemma 3(27B)可在22GB VRAM中运行。你可以阅读我们关于新变化的深度博客文章:unsloth.ai/blog/gemma3

  • 使用我们的Colab笔记本 免费对Gemma 3(4B)进行微调

  • 我们上传了动态4 - 位量化,由于Gemma 3的多模态性,它更加有效。查看所有Gemma 3上传内容,包括GGUF、4 - 位等:[Models](https://huggingface.co/collections/unsloth/gemma - 3 - 67d12b7e8816ec6efa7e4e5b)

image

  • 我们制作了一份[正确运行Gemma 3的指南](https://docs.unsloth.ai/basics/tutorial - how - to - run - gemma - 3 - effectively),并修复了GGUF与视觉功能不兼容的问题 - 提醒一下,根据Gemma团队的说法,正确的参数是温度 = 1.0,top_p = 0.95,top_k = 64。根据Ollama团队的说法,由于一些后端差异,目前在Ollama中应该使用temp = 0.1。在llama.cpp、Unsloth和其他后端中使用temp = 1.0!

Gemma 3动态4 - 位指令量化:

[1B](https://huggingface.co/unsloth/gemma - 3 - 1b - it - unsloth - bnb - 4bit)[4B](https://huggingface.co/unsloth/gemma - 3 - 4b - it - unsloth - bnb - 4bit)[12B](https://huggingface.co/unsloth/gemma - 3 - 12b - it - unsloth - bnb - 4bit)[27B](https://huggingface.co/unsloth/gemma - 3 - 27b - it - unsloth - bnb - 4bit)

如果有任何问题请告诉我,希望大家度过一个愉快的周五和周末!:) 另外,要更新Unsloth,请执行:

pip install --upgrade --force - reinstall --no - deps unsloth unsloth_zoo

Colab笔记本 可使用免费GPU对Gemma 3进行微调、推理和数据准备

讨论总结

这个讨论主要围绕Gemma3在Unsloth中的微调情况展开。许多评论者表达了对Gemma3和Unsloth的积极态度,也有人提出了关于功能、优化、运行环境等多方面的疑问,还有对未来发展如多GPU支持、创建前端等方面的期待。

主要观点

  1. 👍 对Gemma3在Unsloth中的微调成果表示满意
    • 支持理由:如FullDeer9001对运行结果满意,多个评论者对Unsloth支持完全微调感到惊喜等。
    • 反对声音:无。
  2. 🔥 对Unsloth发展的看好
    • 正方观点:如评论者认为Unsloth会成为LLM微调的首选工具集。
    • 反方观点:无。
  3. 💡 对Gemma3在特定场景下的应用和问题的关注
    • 例如有人关注在16GB内存下12B模型的优化,有人指出Gemma3在角色扮演方面的问题等。

金句与有趣评论

  1. “😂 我正在Radeon XTX上以8k的上下文运行Gemma3,使用了24GB显存中的23.8GB。”
    • 亮点:具体展示了Gemma3的运行情况。
  2. “🤔 Woah, you guys support full finetuning now? That’s huge!”
    • 亮点:表达出对Unsloth支持完全微调功能的惊叹。
  3. “👀 我希望你将来也支持AMD卡!(如果我看到你的一个帖子提到gfx1100,我会很高兴的!)”
    • 亮点:体现出用户对产品支持AMD显卡的期待。

情感分析

总体情感倾向是积极的,多数评论者对Gemma3在Unsloth中的微调情况表示认可、赞赏或者期待。主要分歧点较少,主要集中在一些技术问题的疑问上,如8位全微调的情况、某些功能是否能实现等,这可能是由于不同用户的技术需求和使用场景不同导致的。

趋势与预测

  • 新兴话题:对多GPU支持的期待、创建本地运行的webUI、对不同硬件(如AMD显卡、RTX 50系列)的支持等可能会引发后续讨论。
  • 潜在影响:如果这些期待的功能得以实现,可能会提高Gemma3和Unsloth在不同用户群体中的适用性和普及度,推动相关技术在不同硬件环境和应用场景中的发展。

详细内容:

标题:Gemma 3 在 Unsloth 中的精细调整及相关讨论

在 Reddit 上,一篇关于 Gemma 3 在 Unsloth 中精细调整的帖子引起了广泛关注。该帖子介绍了一系列令人瞩目的新特性,如在 24GB GPU 上实现更长的上下文长度精细调整、解决梯度爆炸问题、自动纠正双 BOS 令牌等,并提供了各种模型和算法的支持。此帖获得了众多点赞和评论。

讨论的焦点主要集中在以下几个方面: 有人分享了在特定硬件上运行 Gemma 3 的成果,如“FullDeer9001”在 Radeon XTX 上使用 23.8GB 的 24GB VRam,获得了满意的效果。 有人对 Unsloth 能否支持特定优化提出疑问,如“semsiogluberk”询问是否能为 12B 模型进行针对 16GB 内存的优化。 一些用户对 Unsloth 的未来发展表达了期待,像“Exotic-Investment110”希望未来能支持 AMD 卡,“AtomicProgramming”对全精细调整用于研究充满期待。

有用户称赞 Unsloth 功能强大,如“Few_Painter_5588”认为 Unsloth 未来将成为 LLM 精细调整的首选工具。但也有用户如“XdtTransform”表示在使用过程中未体验到宣称的 1.6 倍速度提升。

在讨论中,大家对于 Unsloth 的表现和未来发展既有期待和赞扬,也有提出疑问和实际体验中的困惑。共识在于认可 Unsloth 带来的新特性和可能性,同时也期待在更多方面的优化和改进。特别有见地的观点如“danielhanchen”对于各种问题的详细解答,丰富了讨论的内容。

总的来说,这次关于 Gemma 3 在 Unsloth 中的讨论展示了大家对新技术的关注和期待,也为 Unsloth 的进一步发展提供了宝贵的意见和方向。