原贴链接

嘿!我将16bit、8bit、6bit、5bit、4bit、3bit和2bit的GGUF上传到了https://huggingface.co/unsloth/Llama-3.2-3B-Instruct-GGUFhttps://huggingface.co/unsloth/Llama-3.2-1B-Instruct-GGUF

同时,我还上传了90B、11B Vision以及1B和3B版本的原始float16权重到 https://huggingface.co/collections/unsloth/llama-32-all-versions-66f46afde4ca573864321a22

1B原始权重: https://huggingface.co/unsloth/Llama-3.2-1B

3B原始权重: https://huggingface.co/unsloth/Llama-3.2-3B

1B instruct bitsandbytes 4bit: https://huggingface.co/unsloth/Llama-3.2-1B-Instruct-bnb-4bit

3B instruct bitsandbytes 4bit: https://huggingface.co/unsloth/Llama-3.2-3B-Instruct-bnb-4bit

完整模型表格:

原始HF权重4bit BnB量化GGUF量化 (16,8,6,5,4,3,2 bits)
Llama 3.2 1BLlama 3.2 1B BnB
Llama 3.2 3BLlama 3.2 3B BnB
Llama 3.2 1B InstructLlama 3.2 1B Instruct BnBLlama 3.2 1B Instruct GGUF
Llama 3.2 3B InstructLlama 3.2 3B Instruct BnBLlama 3.2 3B Instruct GGUF
Llama 3.2 11B VisionLlama 3.2 11B Vision BnB
Llama 3.2 90B VisionLlama 3.2 90B Vision BnB

讨论总结

本次讨论主要围绕 Llama 3.2 多模态 GGUF 模型的支持、复杂性和未来发展展开。评论者们对多模态 GGUF 的支持表达了疑虑和期待,特别是对于 Llama 3.2 的多模态支持。讨论中提到了 GitHub 上的相关问题和代码库的更新,以及对多模态支持的复杂性和优先级的讨论。此外,还涉及了如何支持多模态模型并提供类似 OpenAI 的端点,以及推理引擎的选择和自定义包装器的必要性。

主要观点

  1. 👍 多模态 GGUF 的支持可能不会很快实现

    • 支持理由:多模态 GGUF 的实现和维护具有较高的复杂性,目前有其他优先级更高的事项正在处理。
    • 反对声音:社区希望尽快实现多模态支持,认为这对模型的应用场景扩展至关重要。
  2. 🔥 多模态 GGUF 的实现和维护具有较高的复杂性

    • 正方观点:多模态支持涉及跨注意力机制等复杂架构,实现难度较大。
    • 反方观点:社区认为通过共同努力可以克服这些复杂性,推动多模态支持的实现。
  3. 💡 目前有其他优先级更高的事项正在处理

    • 解释:社区目前正在处理其他更紧迫的任务,如 MiniCPM 的支持已经合并到 llama.cpp 中。
  4. 💡 多模态支持的实现需要社区的贡献和维护

    • 解释:多模态支持的实现需要社区成员的共同努力和持续维护,以确保其稳定性和可用性。
  5. 💡 vLLM 目前不支持 bnb4,但可以支持 FP8 用于多模态

    • 解释:在选择推理引擎时,vLLM 是一个可行的选择,尽管它目前不支持 bnb4,但可以支持 FP8 用于多模态模型的推理。

金句与有趣评论

  1. “😂 After reviewing https://github.com/ggerganov/llama.cpp/issues/4216 I suspect we won’t be seeing multimodal GGUFs for llama3.2 any time soon, but would love to be wrong about that.”

    • 亮点:评论者对多模态 GGUF 的实现持怀疑态度,但仍抱有希望。
  2. “🤔 Ye multimodal unfortunately (especially Llama 3.2) can be quite painful with cross attention and other things - it’s an extremely dynamic architecture so it might be hard to support.”

    • 亮点:评论者指出了多模态支持的复杂性,特别是对于 Llama 3.2 这样的动态架构。
  3. “👀 So, which inference engine can support those vision models and provide an OpenAI-like endpoint? Or do I have to write a custom wrapper around 🤗 transformers?”

    • 亮点:评论者提出了一个实际问题,询问如何支持多模态模型并提供类似 OpenAI 的端点。

情感分析

讨论的总体情感倾向较为中性,既有对多模态 GGUF 支持的期待,也有对其复杂性和实现难度的担忧。主要分歧点在于多模态支持的优先级和实现方式,部分评论者认为应优先处理其他更紧迫的任务,而另一部分则希望尽快实现多模态支持。

趋势与预测

  • 新兴话题:多模态支持的实现方式和社区贡献的重要性可能会成为后续讨论的热点。
  • 潜在影响:多模态 GGUF 的支持实现将对 Llama 3.2 的应用场景扩展产生重要影响,特别是在视觉和多模态任务中的应用。

详细内容:

标题:关于 Llama 3.2 多模态 GGUFs 和 4bit bitsandbytes 的热门讨论

最近,Reddit 上有一则帖子引起了广泛关注,它详细介绍了关于 Llama 3.2 多模态 GGUFs 和各种位宽的 bitsandbytes 的相关内容。该帖子获得了众多的浏览和大量的评论。

原帖中,作者上传了 16 位、8 位、6 位、5 位、4 位、3 位和 2 位的 GGUFs 到特定链接,并提供了原始 float16 权重等内容的链接。帖子还给出了全面的模型表格。

讨论的焦点主要集中在多模态 GGUFs 的实现和支持方面。有人表示,在查看了 https://github.com/ggerganov/llama.cpp/issues/4216 后,怀疑短期内不会看到 llama3.2 的多模态 GGUFs,但希望这种判断是错误的。还有用户称,多模态 GGUFs 可能更为复杂,自己在尝试将其添加到 Unsloth 中用于微调及推理时,也感到颇为棘手。

有人提到 Ggerganov 两周前曾评论道:“自问题创建以来,变化不大。我们需要贡献来改进现有的视觉代码并有人维护。对重新引入完整的多模态支持有兴趣,但目前项目的核心维护者还有其他更优先的事情在处理。”(https://github.com/ggerganov/llama.cpp/issues/8010 )

同时,对于如何支持这些视觉模型以及提供类似 OpenAI 的端点,也有用户提出疑问,不知道哪个推理引擎能够支持,是否需要围绕🤗 transformers 编写自定义包装器。还有用户表示 vLLM 仍然无法处理 bnb4,但可以处理 FP8 用于多模态。

目前,关于 Llama 3.2 多模态 GGUFs 的发展和应用仍存在诸多讨论和不确定性,未来的发展走向值得我们持续关注。