原贴链接

我们刚刚使用最先进的量化方法 AQLM+PV-tuning 压缩了 Llama3.1-70B 和 Llama3.1-70B-Instruct 模型。

结果模型占用 22GB 空间,可以安装在单个 3090 GPU 上。

压缩导致两个模型的 MMLU 性能评分下降了 4-5 个百分点: Llama 3.1-70B MMLU 0.78 -> 0.73 Llama 3.1-70B Instruct MMLU 0.82 -> 0.78

更多信息,请参考模型卡片: https://huggingface.co/ISTA-DASLab/Meta-Llama-3.1-70B-AQLM-PV-2Bit-1x16 https://huggingface.co/ISTA-DASLab/Meta-Llama-3.1-70B-Instruct-AQLM-PV-2Bit-1x16/tree/main

我们还分享了压缩后的 Llama3.1-8B 模型,一些爱好者已经[运行](https://blacksamorez.substack.com/p/aqlm-executorch-android?r=49hqp1&utm_campaign=post&utm_medium=web&triedRedirect=true)为 Android 应用程序,仅使用 2.5GB 内存: https://huggingface.co/ISTA-DASLab/Meta-Llama-3.1-8B-AQLM-PV-2Bit-1x16-hf https://huggingface.co/ISTA-DASLab/Meta-Llama-3.1-8B-Instruct-AQLM-PV-2Bit-1x16-hf

讨论总结

本次讨论主要围绕 Llama3.1-70B 模型的 AQLM-PV 压缩技术展开,涵盖了模型的性能、兼容性、运行环境等多个方面。讨论中,用户对压缩技术的应用表示赞赏,但也提出了一些技术疑虑,如性能下降、兼容性问题和运行环境限制。总体而言,讨论氛围积极,用户对新技术表现出浓厚兴趣,但也期待更多实际应用案例和性能优化。

主要观点

  1. 👍 AQLM-PV 压缩技术受到广泛赞赏
    • 支持理由:压缩后的模型能够在较小 GPU 上运行,节省存储空间。
    • 反对声音:部分用户担心性能下降,认为压缩后的模型效果不如预期。
  2. 🔥 性能下降成为主要争议点
    • 正方观点:压缩技术使得模型更易于部署,性能下降在可接受范围内。
    • 反方观点:4-5% 的性能下降幅度较大,可能使得压缩后的模型与较小模型效果相近。
  3. 💡 兼容性问题引发关注
    • 讨论了模型在不同硬件(如 Windows、Android、M3 MacBook Pro)上的兼容性问题。
    • 用户希望 AQLM 能够支持更多平台和工具,如 GGUF 格式。
  4. 🚀 技术支持和优化建议
    • 用户提出了进一步压缩和优化的建议,如 lorablate 和 GPU 传输。
    • 讨论了微调方法和资源管理,希望提升模型性能和运行效率。
  5. 🌐 模型对比和性能优化
    • 用户对比了 AQLM-PV 与其他量化方法(如 IQ2_M)的性能和资源占用。
    • 讨论了在不同 GPU 上的运行速度和效率,希望进一步提升模型性能。

金句与有趣评论

  1. “😂 Me with an 8GB VRAM GPU patiently waiting
    • 亮点:幽默地表达了用户对新技术的期待和硬件限制的无奈。
  2. “🤔 4-5% drop is a lot. I don’t mean to criticize but wouldn’t this be almost the same as dropping to the smaller model?”
    • 亮点:提出了一个值得深思的问题,探讨了压缩技术的实际效果。
  3. “👀 Hopefully, AQLM will become popular enough to warrant GGUF compatibility someday.”
    • 亮点:表达了对 AQLM 技术未来发展的乐观态度和期待。
  4. “🚀 I really appreciate the effort, even if the result is IQ_2M with extra steps.”
    • 亮点:赞赏研究团队的努力,同时幽默地指出了技术上的挑战。
  5. “🌟 Can you lorablate the 70b model then compress it?”
    • 亮点:提出了一个创新的优化建议,展示了用户对技术细节的关注。

情感分析

讨论的总体情感倾向较为积极,用户对 AQLM-PV 压缩技术表示赞赏,并对新技术表现出浓厚兴趣。然而,性能下降和兼容性问题成为主要分歧点,部分用户对压缩后的模型效果表示担忧。这些分歧可能源于用户对新技术的不确定性和对实际应用效果的期待。

趋势与预测

  • 新兴话题:AQLM-PV 技术在不同硬件平台上的兼容性和性能优化将成为后续讨论的热点。
  • 潜在影响:AQLM-PV 技术的广泛应用可能推动大模型在更多设备上的部署,但也需要进一步优化以提升性能和用户体验。

详细内容:

标题:Llama3.1-70B 权重压缩成果及引发的热门讨论

近日,Reddit 上一则关于 Llama3.1-70B 权重压缩的帖子引起了广泛关注。该帖子介绍了使用 AQLM-PV 量化方法对 Llama3.1-70B 及 Llama3.1-70B-Instruct 模型进行压缩的成果。压缩后的模型仅占用 22GB 空间,可在单张 3090 GPU 上运行,但 MMLU 性能评分有所下降。此帖获得了众多点赞和大量评论。

讨论的焦点主要集中在以下几个方面: 有人询问运行压缩模型的最简方式,有人表示通过 Transformers 运行较为容易,并提供了相关示例链接。还有用户探讨在 Mac 系统上的运行方法。有人称赞这一成果,也有人认为如果能对 gemma-2 27B 进行类似压缩就更好了。 有用户分享了自己在 VRAM 有限系统(16GB)上通过 vLLM 和 Aphrodite 运行 70B 模型的经历,遇到了一些问题。也有人对压缩方法感兴趣,询问是否有方法将 Mixtral 以更小的容量适配。 关于模型的格式和在不同系统上的运行,有人提出疑问,比如在 Windows 系统中能否运行,是否支持 ooba 等。还有用户讨论了模型压缩对性能和每秒处理的令牌数量的影响,指出推理速度较慢。 对于模型的大小和与其他量化方式的比较,用户也展开了讨论,有人认为与 IQ_2M 相似,也有人期待 AQLM 能支持 GGUF 格式。

在讨论中,有人指出 22.5GiB 与 24.1GB 单位不同。还有用户提到了在 Android 版本运行时的权限和文件夹访问问题。

总的来说,这一压缩成果引发了大家的热烈讨论,包括运行方式、性能影响、格式支持等多个方面。但同时,也有用户对性能下降以及在某些系统和硬件上的运行困难表示了担忧。