原贴链接

我进行了一个快速测试，以评估量化对 Mistral Small Instruct 2409 22B 性能的影响。我仅关注计算机科学类别，因为测试这一单个类别每个模型需要43分钟。

量化	大小	计算机科学 (MMLU PRO)
Mistral Small-Q6_K_L	18.35GB	58.05
Mistral Small-Q6_K	18.25GB	58.05
Mistral Small-Q5_K_L	15.85GB	57.80
Mistral Small-Q4_K_L	13.49GB	60.00
Mistral Small-Q4_K_M	13.34GB	56.59
Mistral Small-Q3_K_S	9.64GB	50.24
—	—	—
Qwen2.5-32B-it-Q3_K_M	15.94GB	72.93
Gemma2-27b-it-q4_K_M	17GB	54.63

我正在对其他量化进行评估；稍后我会更新此帖子。

如果您希望我测试其他量化或模型，请留下评论。请注意，我是在家用电脑上运行此测试，因此我没有时间或VRAM来测试每个模型。

GGUF 模型: https://huggingface.co/bartowski & https://www.ollama.com/

后端: https://www.ollama.com/

评估工具: https://github.com/chigkim/Ollama-MMLU-Pro

评估配置: https://pastebin.com/YGfsRpyf

Qwen2.5 32B GGUF 评估结果: https://www.reddit.com/r/LocalLLaMA/comments/1fkm5vd/qwen25_32b_gguf_evaluation_results/

更新: 添加 Q6_K

更新: 添加 Q4_K_M

讨论总结

本次讨论主要围绕Mistral Small Instruct 2409 22B模型的量化评估结果展开，重点关注计算机科学类别中的模型性能。讨论中涉及多个量化版本（如Q6_K_L、Q6_K、Q5_K_L等）的测试数据，以及Qwen2.5-32B-it-Q3_K_M和Gemma2-27b-it-q4_K_M的评估结果。讨论者对量化代码的表现、多轮测试的必要性以及模型更新的期待进行了深入探讨。总体上，讨论氛围技术性强，参与者对量化评估的细节和结果表现出高度关注。

主要观点

👍 Q6常规和大型版本得分相同
- 支持理由：量化水平较低时差异微小，任务离散。
- 反对声音：无明显反对意见。
🔥 Q4_K_L表现优于Q5_K_L
- 正方观点：可能是随机机会或某些层的处理不同。
- 反方观点：无明显反对意见。
💡 希望有更好设备的作者能进行多轮测试
- 解释：多轮测试有助于减少随机误差，提高评估准确性。
💡 量化代码在非8或4位时的表现可能不佳
- 解释：讨论者对量化代码的性能表示担忧。
💡 Q4量化版本在某些情况下表现更智能
- 解释：能识别不确定的情况并正确回答命令行问题。

金句与有趣评论

“😂 What is quite interesting is that Q4_K_L out performed Q5_K_L… I wonder if it’s down to random chance or if there are some layers that are done differently 🤔”
- 亮点：提出了对Q4_K_L表现优于Q5_K_L的可能原因的猜测。
“🤔 If it not a random good run what could be going on? Is it possible the quantisation code is doing bad things when its not 8 or 4 bit?”
- 亮点：对量化代码在非8或4位时的表现提出质疑。
“👀 the Q4 does seems to be a bit smarter than the Q6… it says when its not sure about something and got a command line question correct where the Q6 hallucinated some weird results”
- 亮点：对比了Q4和Q6在智能表现上的差异。

情感分析

讨论的总体情感倾向偏向中性，主要集中在技术细节和量化评估结果的分析上。讨论者对量化代码的表现和多轮测试的必要性表现出一定的担忧，但对模型性能的提升和智能表现表示认可。主要分歧点在于量化代码在非8或4位时的表现，以及Q4_K_L表现优于Q5_K_L的原因。

趋势与预测

新兴话题：量化代码在非8或4位时的表现，以及多轮测试的必要性。
潜在影响：对量化评估方法的改进和模型性能的进一步提升。

详细内容：

标题：关于 Mistral Small 2409 22B GGUF 量化评估结果的热门讨论

最近，Reddit 上有一篇关于 Mistral Small 2409 22B GGUF 量化影响性能的测试帖子引起了广泛关注。该帖子作者在计算机科学类别进行了快速测试，每个模型测试耗时约 43 分钟，并详细列出了不同量化方式下的模型大小和性能表现。此帖获得了众多用户的积极参与，评论数众多。

帖子主要讨论方向集中在不同量化方式对模型性能的影响，以及测试结果的合理性和随机性。

文章将要探讨的核心问题是：这些量化方式的差异究竟是随机因素导致，还是存在更深层次的技术原因？

在讨论中，有人认为 Q6 常规和大型得分相同不奇怪，因为在该量化水平差异极小，这些都是离散任务。有人觉得 Q4_K_L 表现优于 Q5_K_L 很有趣，怀疑是随机机会还是某些层的处理方式不同。还有用户指出由于 Q6 答错超过 40%的问题，可能是 Q4L 量化方式的某些特性使其随机答对了某些问题。也有人希望有更好的机器进行多次测试。

有用户分享道：“我刚刚测试了 Q4 L M 和 Q6 L M 针对一些编程问题，使用 koboldcpp，发现 Q4 似乎比 Q6 更聪明些，Q6 产生了一些奇怪的结果。”

同时，也有用户表示感谢测试，认为结果很有用，并期待更多更新。还有人提出增加其他量化方式或重新测试某些模型。

讨论中的共识是大家都对测试结果表现出了浓厚兴趣，并期待更深入和全面的测试。特别有见地的观点是对量化方式背后技术原因的探讨，丰富了讨论的深度。

总的来说，这次关于 Mistral Small 2409 22B GGUF 量化评估结果的讨论，为相关领域的研究和发展提供了有价值的参考和思考。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#