原贴链接

嘿 r/LocalLLaMA!Google 刚刚发布了 Gemma-2 2b,这是在一个更大的 LLM(27b?甚至更大的?)上经过2万亿个蒸馏输出的训练结果。我上传了4位 bitsandbytes 量化和 GGUF 变体!我也已经为 9b 和 27b 上传了4位版本。

我还使微调速度提高了2倍,并减少了63%的VRAM使用! 我有一个免费的 Colab 笔记本,通过 Unsloth 在这里微调 Gemma-2 2b:https://colab.research.google.com/drive/1weTpKOjBZxZJ5PQ-Ql8i6ptAY2x-FWVA?usp=sharing。9b 和 27b 的 Kaggle 和其他 Colab 笔记本在 https://github.com/unslothai/unsloth

Gemma-2 2b Instruct GGUF 量化在 https://huggingface.co/unsloth/gemma-2-it-GGUF

  1. https://huggingface.co/unsloth/gemma-2-it-GGUF/blob/main/gemma-2-2b-it.q2_k.gguf
  2. https://huggingface.co/unsloth/gemma-2-it-GGUF/blob/main/gemma-2-2b-it.q3_k_m.gguf
  3. https://huggingface.co/unsloth/gemma-2-it-GGUF/blob/main/gemma-2-2b-it.q4_k_m.gguf
  4. https://huggingface.co/unsloth/gemma-2-it-GGUF/blob/main/gemma-2-2b-it.q5_k_m.gguf
  5. https://huggingface.co/unsloth/gemma-2-it-GGUF/blob/main/gemma-2-2b-it.q6_k.gguf
  6. https://huggingface.co/unsloth/gemma-2-it-GGUF/blob/main/gemma-2-2b-it.q8_0.gguf
  7. https://huggingface.co/unsloth/gemma-2-it-GGUF/blob/main/gemma-2-2b-it.F16.gguf

Bitsandbytes 4位量化(微调下载速度提高4倍)

  1. https://huggingface.co/unsloth/gemma-2-2b-it-bnb-4bit
  2. https://huggingface.co/unsloth/gemma-2-2b-bnb-4bit

对于其他使 Gemma-2 微调速度提高2倍并减少50-60% VRAM 使用的笔记本,请查看我们的9b免费笔记本:

Colab: https://colab.research.google.com/drive/1vIrqH5uYDQwsJ4-OO3DErvuv4pBgVwk4?usp=sharing

Kaggle: https://www.kaggle.com/code/danielhanchen/kaggle-gemma-7b-unsloth-notebook/

Gemma-2 2b 在 Chat LMSYS 排行榜上表现相当不错:

image

另外,请更新 Unsloth 以使用支持 Gemma-2 的 Flash Attention v2,包括软上限支持!现在注意力使用线性内存而不是二次内存 - 允许长上下文微调!

pip uninstall unsloth -y
pip install --upgrade --no-cache-dir "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"

我还为 Gemma-2 instruct 制作了一个在线推理聊天界面:https://colab.research.google.com/drive/1i-8ESvtLRGNkkUQQr_-z_rcSAIo9c3lM?usp=sharing

https://preview.redd.it/2ggkf74hwvfd1.png?width=2013&format=png&auto=webp&s=b72f11dbe6ffe22cf8f8982208d659e9b8c61002

讨论总结

本次讨论主要聚焦于Google最新发布的Gemma-2 2b模型,该模型基于2万亿蒸馏数据训练,并提供了多种量化版本和优化后的微调方法。讨论内容包括模型的性能表现、资源节省策略以及在线工具的分享。用户对模型的更新和优化表示赞赏,尤其是微调速度的提升和VRAM使用的减少。总体上,讨论氛围积极,技术细节丰富,用户对新技术的接受度和支持度较高。

主要观点

  1. 👍 Gemma-2 2b模型的发布
    • 支持理由:基于2万亿蒸馏数据训练,性能优越。
    • 反对声音:无明显反对声音。
  2. 🔥 微调优化和资源节省
    • 正方观点:微调速度提升2倍,VRAM使用减少63%。
    • 反方观点:无明显反方观点。
  3. 💡 在线工具和资源分享
    • 解释:提供了免费的Colab笔记本和GitHub链接,方便用户进行微调和资源优化。

金句与有趣评论

  1. “😂 Was waiting for this one.”
    • 亮点:用户对新模型的期待和兴奋。
  2. “🤔 Your colab notebooks are a gift to humanity”
    • 亮点:对作者分享工具的感激和认可。
  3. “👀 Yes it should still function relatively well!”
    • 亮点:对量化后模型性能的肯定。

情感分析

讨论的总体情感倾向积极,用户对新模型的发布和优化表示赞赏。主要分歧点在于对新技术声明的初始怀疑,但随着时间的推移,用户逐渐认识到技术的真实性和可靠性。这种转变体现了用户对技术更新的接受和信任建立过程。

趋势与预测

  • 新兴话题:Flash Attention v2的支持和长上下文微调的优化。
  • 潜在影响:对AI模型微调和资源优化的进一步推动,可能引发更多相关技术的讨论和应用。