原贴链接

18个月前,(有研究表明,至少以困惑度作为衡量标准时,大型模型的Q2量化等同于次小模型的量化)(https://www.reddit.com/r/LocalLLaMA/comments/1441jnr/k_quantization_vs_perplexity/)。如今,我认为情况有所不同。模型(词汇量更大,因此受量化的负面影响更大)(https://www.reddit.com/r/LocalLLaMA/comments/1fjo7zx/comment/lnpiwxx/),不过正如那位评论者所说,大型模型比小型模型更能抵御量化损失。最近,这里有人说,非常密集的现代模型在Q6量化之后质量会迅速下降,所以运行量化程度更高的小型模型更好。Llama 3.1和3.2似乎就是这种情况。从某种程度上说,这些高度调优、词汇量大、上下文多的8B和3B模型几乎会受到任何量化的影响是有道理的。据我个人经验,我认为在Q80量化下,Qwen 2.5 Coder 7B模型给出的答案比Q4KL量化下的同一模型32B更好。你怎么看?你有什么经验?

讨论总结

该讨论围绕大模型更多量化与小模型更少量化哪个更好展开。参与者结合自身经验,从不同角度阐述观点,包括模型在不同任务中的表现、量化对模型性能的影响、如何根据需求选择模型等,整体讨论氛围较为理性。

主要观点

  1. 👍 不同量化程度在不同模型上有不同效果,如Q4量化的Mistral Large比Q8量化的其他模型好
    • 支持理由:作者OutrageousMinimum191分享的自身经验表明。
    • 反对声音:无。
  2. 🔥 模型大小与量化程度的好坏比较需依据任务而定
    • 正方观点:tyoma认为不同任务有不同结果,以Solidity代码补全任务为例进行说明。
    • 反方观点:无明确反对,但有其他不同角度观点。
  3. 💡 根据任务对知识的需求选择模型大小,若任务依赖知识则选大模型,若任务依赖解析等非知识能力则选小模型
    • 支持理由:Su1tz提供一种基于任务需求选择模型的思路。
    • 反对声音:无。
  4. 👍 AI模型系统复杂难以全面评估,如今模型种类增多且解决问题方式不同等多种复杂情况
    • 支持理由:作者从AI模型整体复杂性阐述观点。
    • 反对声音:无。
  5. 🔥 较大模型搭配较低量化和较小模型搭配较高量化的情况通常依然成立,但编码任务可能是特殊情况
    • 正方观点:作者根据自身经验得出结论。
    • 反方观点:无明确反对。

金句与有趣评论

  1. “😂 As for my experience, Q4 quant of Mistral Large is better than Q8 quants of Llama 3.3 and Qwen 2.5 72b”
    • 亮点:直接用自身经验给出量化在不同模型上效果对比。
  2. “🤔 Heres my 2 cents: If the task youre trying to accomplish relies on the knowledge of the LLM, use a bigger model. If it relies on its ability to parse, use tools, summarize or any other task that doesnt need the model to be knowledgeable use small model.”
    • 亮点:提供一种基于任务需求选择模型的思路。
  3. “👀 Qwen2.5 3b q8 is visibly inferior for coding than 7b q4.”
    • 亮点:具体指出某模型在特定量化下的编码能力差异。
  4. “😂 I think up to q4 yes.Q3 where things start to fall apart. Q5 imo is not distinguishable from q8”
    • 亮点:对不同量化值下模型表现的独特见解。
  5. “🤔 It would depends on the task.”
    • 亮点:简洁表明任务对模型量化比较的重要性。

情感分析

总体情感倾向较为理性客观。主要分歧点在于大模型与小模型量化比较时的各种情况,如是否取决于任务、不同量化值的影响等。可能的原因是大家从不同的使用场景、经验、模型类型等角度出发看待问题。

趋势与预测

  • 新兴话题:从分词器大小角度看待量化问题,可能引发更多关于模型内部结构对量化影响的讨论。
  • 潜在影响:有助于在模型选择、量化策略制定等方面提供更多参考依据,让使用者能根据自身需求更精准地选择合适的模型和量化方式,提高模型使用效率。

详细内容:

标题:关于模型量化与大小的热门讨论

在 Reddit 上,一则题为“你是否仍然认为具有更多量化的大型模型优于具有较少量化的小型模型?”的帖子引起了广泛关注。该帖子获得了众多点赞和大量评论。帖子指出,18 个月前,大型模型在特定量化条件下的表现至少在使用困惑度作为衡量指标时,与较小模型相当。如今情况有所不同,模型因词汇量增大而受量化影响更负面,不过大型模型对量化损失的抵御能力强于小型模型。最近有人称,非常密集的现代模型在 Q6 之后质量迅速下降,因此运行具有更高量化的较小模型可能更好。有人还分享了自己从 Qwen 2.5 Coder 7B 在 Q80 得到的答案比同一模型 32B 在 Q4KL 更好的经历。

讨论焦点主要集中在以下几个方面: 有人认为 Q4 量化的 Mistral Large 优于 Q8 量化的 Llama 3.3 和 Qwen 2.5 72b。有人指出在同一模型家族内比较才有意义,比如是运行 llama 3.3 72b Q4 还是 llama 3.3 34B Q8。还有人对各种反馈都感兴趣,想了解特定模型在量化方面的表现差异。有人称 Mistral Large 在自己的系统上运行速度比 Qwen 或 Llama 慢,即使模型文件大小相近。也有人认为这取决于是计算还是带宽受限,更多参数意味着更多处理,即使缩小模型,运行它仍需要更多计算。

一些特别有见地的观点包括:有人认为如果任务依赖于语言模型的知识,就使用更大的模型,如果依赖其解析能力,就使用小模型。还有人将小模型比作办公室实习生,高度量化的大型模型比作醉酒的博士,形象地说明了它们的特点。

有人表示过去认为大型且量化小的模型更好,但现在不确定了,在试验中发现 Qwen2.5 coder 32b q4 和 Qwen2.5 coder 14b q8 效果差不多。有人希望能有更清晰的指标来判断,因为一直以为更大的量化模型更好,通常运行 Q4 或 Q5 的 mistral 22B 相关模型。

有人认为这取决于任务,最好进行可靠的基准测试。有人称在特定的任务(Solidity 代码完成)中,Q4 的大型模型总是优于 Q8 的小型模型。

有人认为一般来说情况没有改变,现在有众多不同的基础模型和方法,新的 12B 模型可能比旧的 70B Llama 模型更好。有人表示要先确定所需的上下文长度、系统提示的复杂程度和期望的输出类型,然后确定最适合的模型大小和量化。

有人认为取决于使用情况,困惑度可能是目前最好的测量方式但仍有不足,量化对模型的算术能力和编程任务帮助有很大影响。

有人认为运行大型模型(70B+)即使在 3 到 2 位量化范围内也是值得的,而较小的模型则不然。有人认为在特定任务中,模型的适配性比大小更重要,现代架构比规模更重要。有人指出量化越强,模型越不稳定。有人称模型的过度训练程度也会影响量化效果。

总之,关于模型量化与大小的关系,大家观点各异,尚无定论,仍需根据具体任务和使用情况进行判断和测试。