原贴链接

嘿,大家好!我上传了5位、4位、3位和2位的GGUF文件到[https://huggingface.co/unsloth/Llama - 3.3 - 70B - Instruct - GGUF](https://huggingface.co/unsloth/Llama - 3.2 - 3B - Instruct - GGUF)(16位、8位和6位正在上传!)。所有版本的Llama 3.3,包括GGUF、4位、16位版本都可以在[我们的合集](https://huggingface.co/collections/unsloth/llama - 33 - all - versions - 67535d7d994794b9d7cf5e9f)中获取。这是所有链接的表格:|原始Hugging Face权重|4位bitsandbytes量化|GGUF量化(16、8、6、5、4、3、2位)| | - | - | - | |[Llama 3.3(70B)指令](https://huggingface.co/unsloth/Llama - 3.3 - 70B - Instruct)|[Llama 3.3(70B)指令4位](https://huggingface.co/unsloth/Llama - 3.3 - 70B - Instruct - bnb - 4bit)|[Llama 3.3(70B)指令GGUF](https://huggingface.co/unsloth/Llama - 3.3 - 70B - Instruct - GGUF)|。我还附上了一个带有GGUF链接和磁盘大小的表格:|位版本|磁盘大小|所有链接在此:[所有GGUF链接](https://huggingface.co/unsloth/Llama - 3.3 - 70B - Instruct - GGUF)| | - | - | - | |5位|46.5GB|[5位GGUF链接](https://huggingface.co/unsloth/Llama - 3.3 - 70B - Instruct - GGUF/blob/main/Llama - 3.3 - 70B - Instruct - Q5_K_M.gguf)| |4位|39.6GB|[4位GGUF链接](https://huggingface.co/unsloth/Llama - 3.3 - 70B - Instruct - GGUF/blob/main/Llama - 3.3 - 70B - Instruct - Q4_K_M.gguf)| |3位|31.9GB|[3位GGUF链接](https://huggingface.co/unsloth/Llama - 3.3 - 70B - Instruct - GGUF/blob/main/Llama - 3.3 - 70B - Instruct - Q3_K_M.gguf)| |2位|24.6GB|[2位GGUF链接](https://huggingface.co/unsloth/Llama - 3.3 - 70B - Instruct - GGUF/blob/main/Llama - 3.3 - 70B - Instruct - Q2_K.gguf)|。我也正在上传6位、8位和16位权重!你还可以使用Unsloth在不到48GB的显存下微调Llama 3.3 70B,并且你会得到4倍长的上下文长度!请更新Unsloth以允许下载4位bitsandbytes模型,由于减少了GPU碎片,这将额外减少1GB的显存使用!你可以通过pip install --upgrade --no - cache - dir --no - deps unsloth来做到这一点。* 在Unsloth内部原生推理速度也快2倍!* Llama 3.2视觉微调笔记本在Colab:[https://colab.research.google.com/drive/1j0N4XTY1zXXy7mPAhOC1_gMYZ2F2EBlk?usp = sharing](https://colab.research.google.com/drive/1j0N4XTY1zXXy7mPAhOC1_gMYZ2F2EBlk?usp = sharing) * 通过更改模型名称的Llama 3.2 1B/3B微调笔记本(支持Llama 3.3 70B指令) - [https://colab.research.google.com/drive/1T5 - zKWM_5OD21QHwXHiV9ixTRR7k3iB9?usp = sharing](https://colab.research.google.com/drive/1T5 - zKWM_5OD21QHwXHiV9ixTRR7k3iB9?usp = sharing)

讨论总结

该帖子主要是关于Llama 3.3相关资源在Hugging Face上的发布情况,包括不同bit版本的GGUFs等内容。评论围绕着在Mac上的运行效率、特定版本的疑问、对Unsloth产品的认可与功能探讨、硬件性能不足、不同bit版本的性能比较以及设备需求等话题展开,整体氛围是积极的技术交流与疑问探讨。

主要观点

  1. 👍 在Mac上运行效率为每秒约5个标记,更倾向于继续使用Virtuoso Small
    • 支持理由:自己的Mac电脑上运行相关程序得到此效率,所以做出这样的选择
    • 反对声音:无
  2. 🔥 对Llama 3.3无90b vision版本表示不解
    • 正方观点:在众多版本中发现没有此版本而疑惑
    • 反方观点:无
  3. 💡 对原帖内容肯定并询问多GPU训练可能性
    • 原帖作者尚未支持但有计划添加,提问者表示期待
  4. 🤔 3090 24GB显卡属于GPU性能不足类别且感到难过
    • 可能是相关资源对硬件要求高导致
  5. 😎 想了解4 - 5bit和3bit的性能差异并考虑设备需求
    • 不同bit版本可能影响设备需求所以进行考虑

金句与有趣评论

  1. “😂 Sky_Linx:I’m getting about 5 tokens per second on my Mac, so it looks like I’ll stick with Virtuoso Small for now :D”
    • 亮点:直观给出在Mac上的运行效率并做出使用选择
  2. “🤔 Pro - editor - 1105:Wonder why there is no 90b vision version of 3.3?”
    • 亮点:提出对特定版本缺失的疑问
  3. “👀 这很棒。能使用多个GPU训练吗?”
    • 亮点:先肯定原帖内容然后提出对多GPU训练的疑问
  4. “😕 FPham: LOL, my 3090 24GB is now GPU poor category. Sad. :(”
    • 亮点:反映出硬件在面对相关资源时可能存在性能不足的情况
  5. “💡 matadorius: how much better is 4 - 5bit vs 3bit?”
    • 亮点:对不同bit版本性能差异进行提问

情感分析

总体情感倾向是积极的。主要分歧点较少,大家基本都在围绕技术问题进行提问、分享或者表达对产品的认可。可能的原因是这是一个关于特定技术产品(Llama 3.3和Unsloth)的帖子,吸引的是对此感兴趣并想要深入了解技术细节的用户。

趋势与预测

  • 新兴话题:关于不同bit版本性能差异的深入探讨以及多GPU训练功能的添加。
  • 潜在影响:可能会影响用户对硬件设备的选择,也有助于Unsloth产品功能的优化与完善,进一步推动相关技术领域的发展。

详细内容:

标题:关于 Llam 3.3 在 Hugging Face 上的热门讨论

最近,Reddit 上有一个关于 Llama 3.3 在 Hugging Face 上的讨论热度很高。原帖分享了 5bit、4bit、3bit 和 2bit 等不同版本的 GGUFs 上传链接,并介绍了相关的模型信息,还提到了正在上传 6bit、8bit 和 16bit 权重。此帖获得了众多关注,评论区也十分热闹。

讨论的焦点主要集中在以下几个方面: 有人在 Mac 上进行测试,比如“Sky_Linx”表示自己的 M4 Pro mini 电脑在 Q4 模式下每秒能获取约 5 个令牌。“Pro-editor-1105”好奇为什么没有 90b 视觉版本的 3.3,“danielhanchen”猜测未来可能会上传。“Pro-editor-1105”还分享了使用相关产品训练 AI 模型并为其创建 Gradio UI 的经历。 关于能否用多个 GPU 训练的问题,“danielhanchen”称尚未支持,但计划在 Unsloth 中添加,“yoracale”则表示根据测试,Unsloth 在单个 GPU 上比 2 个 GPU 更快。“OpenTotal3160”询问在 2 个 3090 上的推理速度以及电源的瓦特数。 有人询问是否能在 Unsloth 中进行 I Matrix 操作,以及不同位版本的性能差异和所需 VRAM 等问题。

比如,有用户分享道:“作为一名技术爱好者,我一直关注着模型的发展。在尝试了多个不同的模型后,我发现 Unsloth 确实有其独特之处。但对于多 GPU 支持的需求,我也十分期待能尽快实现。” 也有用户提供了相关的测试链接:https://colab.research.google.com/drive/1j0N4XTY1zXXy7mPAhOC1\_gMYZ2F2EBlk?usp=sharing ,进一步支持了关于模型测试的讨论。

讨论中的共识在于大家都对 Unsloth 的发展充满期待,并希望其能不断完善和优化。而争议点在于多 GPU 支持的实现时间和方式,以及不同位版本的实际性能表现。

特别有见地的观点如“yoracale”关于单个 GPU 和 2 个 GPU 性能的比较,为讨论提供了新的思考角度。

总之,这场关于 Llama 3.3 的讨论展现了大家对于模型技术的关注和探索,也反映了用户对于更强大、更便捷工具的需求。