原贴链接

我发现从Q5_K_M到Q4_K_M有明显的质量下降。然而,到目前为止,我从未发现从Q6_K到Q5_K_M有明显的质量下降,甚至从Q8_0到Q5_K_M也没有。这使我使用最低为Q5的量化模型,直到我的显存(VRAM)和内存(RAM)能处理的最高量化值。我有很多相同模型但量化值不同的副本,特别是在大约300亿参数范围内,例如我有Qwen2.5 32b Q5_K_M和Q6_K。这是因为当我想要更快速度时,我会选择Q5,因为我可以将更多层卸载到显存。当我想要(我推测)更高质量时,特别是用于编码时,我会选择Q6,但代价是推理速度稍慢。然而,最近我发现自己只使用Q5量化模型,即使是用于编码,因为Q5在速度方面只给我带来优势,没有任何明显的缺点。到目前为止,其质量与Q6甚至Q8相当。这使我考虑是否应该删除所有Q6和Q8量化模型以节省磁盘空间。你的经验是什么?这里有人真的发现Q5和Q6之间有明显的质量差异吗?如果有,在哪些用例和提示下?简而言之:我没发现Q5与Q6甚至Q8之间有质量差异,你呢?

讨论总结

原帖作者分享了自己在Q5、Q6、Q8等量化级别下的使用体验,未发现Q5与Q6、Q8之间有明显质量差异,甚至考虑为节省磁盘空间删除Q6和Q8量化模型,引发众多评论者从不同角度进行讨论。评论者们有的分享自己的量化使用经验规则,有的对不同量化等级之间的质量差异提出不同看法,有的还对量化相关概念进行解答疑问,整体讨论理性且多维度。

主要观点

  1. 👍 存在基准测试表明Q5_K_M是推理成本和质量的甜点位。
    • 支持理由:很多困惑度基准测试显示如此。
    • 反对声音:无。
  2. 🔥 qwen2.5低量化表现好,但不适用于大多数模型。
    • 正方观点:评论者segmond提到qwen2.5的情况,并且表示多数模型低量化效果不佳。
    • 反方观点:原帖作者认为Q5在速度上有优势且未发现质量有明显差异,与segmond观点不同。
  3. 💡 Q5、Q6和Q8质量差异与模型和任务有关。
    • 解释:不同模型和任务会导致Q5、Q6和Q8之间质量有不同表现。
  4. 💡 能感知到Q8到Q6之间智能的下降,Q6是可接受的最低量化等级。
    • 解释:评论者认为Q5开始显得智能低下,模型之间、使用方式不同会造成差异,数值基准不能完全体现情况。
  5. 💡 根据能否在GPU上运行整体模型确定量化方式。
    • 解释:这是评论者分享的模型量化经验规则的一部分。

金句与有趣评论

  1. “😂 Q5开始让人感觉像是被做了脑叶切除术。”
    • 亮点:用形象的比喻表达了对Q5量化等级智能低下的看法。
  2. “🤔 A lot of perplexity benchmarks also show Q5_K_M as the sweet spot of inference cost and quality.”
    • 亮点:指出有基准测试支持Q5_K_M在推理成本和质量方面的优势。
  3. “👀 My rule of thumb: if it feels good keep doing it :)”
    • 亮点:提出一种比较随性的关于量化等级选择的原则。

情感分析

总体情感倾向较为理性和平和。主要分歧点在于不同量化等级之间是否存在质量差异以及差异的程度,原因是不同评论者的使用场景、测试模型、经验等不同。

趋势与预测

  • 新兴话题:关于不同量化等级在特定场景(如结构化输出、图像到文本应用)下的表现可能会引发后续讨论。
  • 潜在影响:有助于人们在选择模型量化等级时更加科学合理,提高模型使用效率,同时也可能影响相关模型量化技术的进一步研究和优化。

详细内容:

《关于 Q5 与 Q6 量化质量差异的热门讨论》

在 Reddit 上,有一个关于“Q5 与 Q6”量化差异的热门帖子引起了广泛关注。该帖子称从 Q5_K_M 到 Q4_K_M 能明显看到质量下降,但从 Q6_K 到 Q5_K_M 以及从 Q8_0 到 Q5_K_M 却未察觉明显质量下降,因此考虑只保留 Q5 量化模型以节省磁盘空间,还询问大家的使用经验,是否看到了 Q5 和 Q6 之间的显著质量差异,点赞数众多,评论区也十分热闹。

在讨论中,主要观点包括:有人指出很多 perplexity 基准测试表明 Q5_K_M 是推理成本和质量的最佳平衡点;有人分享了测试链接,解释了量化得分的含义;还有人认为 qwen2.5 在低量化下表现不错,但并非对大多数模型都如此,并分享了相关实验经历,比如在论文摘要分类任务中,Qwen 72b fp16 和 Gemini 1.5 pro 结果相近,但 qwen 2.5 32b Q4 表现较差,准确性差且错误分类多。

有人觉得这取决于模型和任务,有的模型 Q8 和 Q6 之间智能有明显下降,也有人认为数字基准不能说明全部情况。还有人根据自身情况分享了量化选择的经验,比如如果能在 GPU 上完整运行,就选择 F16,至少 8 位量化;如果涉及部分 CPU 卸载,会根据不同模型和参数选择不同量化。

讨论中的共识在于量化选择是因模型、任务、用户偏好和训练情况而异的。特别有见地的观点是有人认为 Q5 量化在某些情况下速度优势明显且质量不逊于 Q6 和 Q8。

总之,关于 Q5 和 Q6 量化的质量差异,大家看法不一,还需根据具体情况综合考量。你在使用中又有怎样的体验呢?