我们很高兴地推出QTIP,这是一种新的大型语言模型(LLM)量化算法,它利用格状编码量化和非相干处理来实现速度和量化质量的最先进组合。论文(NeurIPS 2024 Spotlight):https://arxiv.org/pdf/2406.11235 代码库+推理内核:[https://github.com/Cornell - RelaxML/qtip](https://github.com/Cornell - RelaxML/qtip) 预量化模型(包括2位405B指令):[https://huggingface.co/collections/relaxml/qtip - quantized - models - 66fa253ad3186746f4b62803](https://huggingface.co/collections/relaxml/qtip - quantized - models - 66fa253ad3186746f4b62803) QTIP比QuIP#质量明显更好,速度一样快。QTIP与PV - Tuning相当或更好,而且速度快得多(约2 - 3倍)。2位405B指令在2个GPU上管道运行。推理后端使用torch.compile和HF,所以在llama.cpp之类的东西上应该会快得多。
讨论总结
这个讨论围绕新的QTIP量化算法展开。涉及到QTIP在llama.cpp中的集成、在不同量化情况下的特点、对不同模型的适用性、运行时的硬件要求等多个方面,大家积极提问、解答,整体氛围比较积极,充满技术探讨的氛围。
主要观点
- 👍 对QTIP算法表示祝贺
- 支持理由:认可新算法的贡献。
- 反对声音:无。
- 🔥 认为将QTIP集成到llama.cpp较为容易
- 正方观点:QTIP用网格量化器取代QuIP#中的矢量量化器,llama.cpp的矢量量化器基于QuIP#的E8P矢量量化器,替换应该很直接。
- 反方观点:由于QTIP所需的“运行时”信息不同,至少不能向后兼容替换i - quants,意味着要向llama.cpp添加新类型,并且相关内核需要重新实现。
- 💡 对QTIP未在Llama3上做基准测试表示疑惑
- 支持理由:在比较中没有展示相关数据很奇怪。
- 反对声音:回复者称论文中有Llama3以及完整结果表格。
- 💡 认为4bit已接近BF16不需要更高比特率
- 支持理由:从量化精度角度考虑。
- 反对声音:无。
- 💡 希望QTIP被采纳为新的标准
- 支持理由:很多新技术虽被创造但很少被实施,希望QTIP不要遭遇同样命运。
- 反对声音:无。
金句与有趣评论
- “😂 我对“…Trellises with Incoherence Processing”的反应就像Deadpool对Teenage Warhead名字的反应。”
- 亮点:以幽默诙谐的方式表达对特定表述的看法。
- “🤔 It should be pretty easy to integrate QTIP into llama.cpp.”
- 亮点:对QTIP集成到llama.cpp的乐观估计。
- “👀 Wow, running 405B at 1.6$/h is insane!”
- 亮点:对运行成本的惊叹。
- “🤔 Are you referring to QTIP - TP8 (not fp8)? If so, the TP8 models do the random Hadamard transform per - GPU in a 8 - way tensor parallelism setup instead of across all the activations, which would require sending data across 8 GPUs.”
- 亮点:对qtip - TP8模型运算特点的详细解释。
- “😂 友谊已经和Bitnet结束了,现在QTIP是我最好的朋友。”
- 亮点:幽默地表达对QTIP的偏好。
情感分析
总体情感倾向是积极的,大家对新算法的诞生表示祝贺和期待。主要分歧点在于QTIP集成到llama.cpp是否容易,可能是因为对技术实现的理解不同,一方从宏观替换的角度认为容易,另一方从具体的“运行时”信息和兼容性考虑认为不简单。
趋势与预测
- 新兴话题:QTIP算法在视觉语言模型方面的应用。
- 潜在影响:如果QTIP被广泛应用,可能会改变LLM量化的标准和实践方式,提高量化的速度和质量,在相关的人工智能研究和应用领域带来效率提升。
详细内容:
标题:Reddit 热议新的量化算法 QTIP
最近,Reddit 上关于新的量化算法 QTIP 的讨论十分热烈。这一算法被介绍为一种新的 LLM 量化算法,使用了网格编码量化和非相干处理,能在速度和量化质量上达到出色的结合。该帖子获得了众多关注,评论众多。
主要的讨论方向包括 QTIP 在实际应用中的可能性,例如是否能用于量化 llama.cpp 的 GGUF 模型,以及其与现有量化技术的比较等。
讨论焦点与观点分析: 有人恭喜算法的推出,并询问对于普通人而言,它是否能用于改进 llama.cpp 的量化,得到回复称整合进 llama.cpp 应该不难。但也有人指出,这不是简单替换就能实现的,需要添加新的类型。关于 QTIP 对 llama.cpp 的贡献方式,作者更希望其他人来进行相关工作,愿意提供指导。 有人对 QTIP 的不同量化级别提出疑问,如 4bit 是否是最高级别,以及最低的 GPU 要求等。有人认为 4bit 已经和 BF16 非常接近,没必要追求更高的量化级别,也有人认为在某些情况下 8bit 可能有用。作者则表示该方法可以扩展到任何比特率,目前只放出 2、3 和 4 位模型是因为它们最受关注,未来可能会放出 1 位模型。 还有人对 QTIP 在其他模型上的应用提出疑问,比如是否能用于像 InternVL 2 这样的 VLMs,作者表示没有尝试过但理论上可行。
总的来说,QTIP 算法引发了大家对量化技术的深入探讨,也让人们对其在不同场景中的应用充满期待。
感谢您的耐心阅读!来选个表情,或者留个评论吧!