原贴链接

我进行了一个快速测试,以评估量化对 Mistral Small Instruct 2409 22B 性能的影响。我仅关注计算机科学类别,因为测试这一单个类别每个模型需要43分钟。

量化大小计算机科学 (MMLU PRO)
Mistral Small-Q6_K_L18.35GB58.05
Mistral Small-Q6_K18.25GB58.05
Mistral Small-Q5_K_L15.85GB57.80
Mistral Small-Q4_K_L13.49GB60.00
Mistral Small-Q4_K_M13.34GB56.59
Mistral Small-Q3_K_S9.64GB50.24
Qwen2.5-32B-it-Q3_K_M15.94GB72.93
Gemma2-27b-it-q4_K_M17GB54.63

我正在对其他量化进行评估;稍后我会更新此帖子。

如果您希望我测试其他量化或模型,请留下评论。请注意,我是在家用电脑上运行此测试,因此我没有时间或VRAM来测试每个模型。

GGUF 模型: https://huggingface.co/bartowski & https://www.ollama.com/

后端: https://www.ollama.com/

评估工具: https://github.com/chigkim/Ollama-MMLU-Pro

评估配置: https://pastebin.com/YGfsRpyf

Qwen2.5 32B GGUF 评估结果: https://www.reddit.com/r/LocalLLaMA/comments/1fkm5vd/qwen25_32b_gguf_evaluation_results/

更新: 添加 Q6_K

更新: 添加 Q4_K_M

讨论总结

本次讨论主要围绕Mistral Small Instruct 2409 22B模型的量化评估结果展开,重点关注计算机科学类别中的模型性能。讨论中涉及多个量化版本(如Q6_K_L、Q6_K、Q5_K_L等)的测试数据,以及Qwen2.5-32B-it-Q3_K_M和Gemma2-27b-it-q4_K_M的评估结果。讨论者对量化代码的表现、多轮测试的必要性以及模型更新的期待进行了深入探讨。总体上,讨论氛围技术性强,参与者对量化评估的细节和结果表现出高度关注。

主要观点

  1. 👍 Q6常规和大型版本得分相同
    • 支持理由:量化水平较低时差异微小,任务离散。
    • 反对声音:无明显反对意见。
  2. 🔥 Q4_K_L表现优于Q5_K_L
    • 正方观点:可能是随机机会或某些层的处理不同。
    • 反方观点:无明显反对意见。
  3. 💡 希望有更好设备的作者能进行多轮测试
    • 解释:多轮测试有助于减少随机误差,提高评估准确性。
  4. 💡 量化代码在非8或4位时的表现可能不佳
    • 解释:讨论者对量化代码的性能表示担忧。
  5. 💡 Q4量化版本在某些情况下表现更智能
    • 解释:能识别不确定的情况并正确回答命令行问题。

金句与有趣评论

  1. “😂 What is quite interesting is that Q4_K_L out performed Q5_K_L… I wonder if it’s down to random chance or if there are some layers that are done differently 🤔”
    • 亮点:提出了对Q4_K_L表现优于Q5_K_L的可能原因的猜测。
  2. “🤔 If it not a random good run what could be going on? Is it possible the quantisation code is doing bad things when its not 8 or 4 bit?”
    • 亮点:对量化代码在非8或4位时的表现提出质疑。
  3. “👀 the Q4 does seems to be a bit smarter than the Q6… it says when its not sure about something and got a command line question correct where the Q6 hallucinated some weird results”
    • 亮点:对比了Q4和Q6在智能表现上的差异。

情感分析

讨论的总体情感倾向偏向中性,主要集中在技术细节和量化评估结果的分析上。讨论者对量化代码的表现和多轮测试的必要性表现出一定的担忧,但对模型性能的提升和智能表现表示认可。主要分歧点在于量化代码在非8或4位时的表现,以及Q4_K_L表现优于Q5_K_L的原因。

趋势与预测

  • 新兴话题:量化代码在非8或4位时的表现,以及多轮测试的必要性。
  • 潜在影响:对量化评估方法的改进和模型性能的进一步提升。

详细内容:

标题:关于 Mistral Small 2409 22B GGUF 量化评估结果的热门讨论

最近,Reddit 上有一篇关于 Mistral Small 2409 22B GGUF 量化影响性能的测试帖子引起了广泛关注。该帖子作者在计算机科学类别进行了快速测试,每个模型测试耗时约 43 分钟,并详细列出了不同量化方式下的模型大小和性能表现。此帖获得了众多用户的积极参与,评论数众多。

帖子主要讨论方向集中在不同量化方式对模型性能的影响,以及测试结果的合理性和随机性。

文章将要探讨的核心问题是:这些量化方式的差异究竟是随机因素导致,还是存在更深层次的技术原因?

在讨论中,有人认为 Q6 常规和大型得分相同不奇怪,因为在该量化水平差异极小,这些都是离散任务。有人觉得 Q4_K_L 表现优于 Q5_K_L 很有趣,怀疑是随机机会还是某些层的处理方式不同。还有用户指出由于 Q6 答错超过 40%的问题,可能是 Q4L 量化方式的某些特性使其随机答对了某些问题。也有人希望有更好的机器进行多次测试。

有用户分享道:“我刚刚测试了 Q4 L M 和 Q6 L M 针对一些编程问题,使用 koboldcpp,发现 Q4 似乎比 Q6 更聪明些,Q6 产生了一些奇怪的结果。”

同时,也有用户表示感谢测试,认为结果很有用,并期待更多更新。还有人提出增加其他量化方式或重新测试某些模型。

讨论中的共识是大家都对测试结果表现出了浓厚兴趣,并期待更深入和全面的测试。特别有见地的观点是对量化方式背后技术原因的探讨,丰富了讨论的深度。

总的来说,这次关于 Mistral Small 2409 22B GGUF 量化评估结果的讨论,为相关领域的研究和发展提供了有价值的参考和思考。