我进行了一个快速测试,以评估量化对 Mistral Small Instruct 2409 22B 性能的影响。我仅关注计算机科学类别,因为测试这一单个类别每个模型需要43分钟。
量化 | 大小 | 计算机科学 (MMLU PRO) |
---|---|---|
Mistral Small-Q6_K_L | 18.35GB | 58.05 |
Mistral Small-Q6_K | 18.25GB | 58.05 |
Mistral Small-Q5_K_L | 15.85GB | 57.80 |
Mistral Small-Q4_K_L | 13.49GB | 60.00 |
Mistral Small-Q4_K_M | 13.34GB | 56.59 |
Mistral Small-Q3_K_S | 9.64GB | 50.24 |
— | — | — |
Qwen2.5-32B-it-Q3_K_M | 15.94GB | 72.93 |
Gemma2-27b-it-q4_K_M | 17GB | 54.63 |
我正在对其他量化进行评估;稍后我会更新此帖子。
如果您希望我测试其他量化或模型,请留下评论。请注意,我是在家用电脑上运行此测试,因此我没有时间或VRAM来测试每个模型。
GGUF 模型: https://huggingface.co/bartowski & https://www.ollama.com/
评估工具: https://github.com/chigkim/Ollama-MMLU-Pro
评估配置: https://pastebin.com/YGfsRpyf
Qwen2.5 32B GGUF 评估结果: https://www.reddit.com/r/LocalLLaMA/comments/1fkm5vd/qwen25_32b_gguf_evaluation_results/
更新: 添加 Q6_K
更新: 添加 Q4_K_M
讨论总结
本次讨论主要围绕Mistral Small Instruct 2409 22B模型的量化评估结果展开,重点关注计算机科学类别中的模型性能。讨论中涉及多个量化版本(如Q6_K_L、Q6_K、Q5_K_L等)的测试数据,以及Qwen2.5-32B-it-Q3_K_M和Gemma2-27b-it-q4_K_M的评估结果。讨论者对量化代码的表现、多轮测试的必要性以及模型更新的期待进行了深入探讨。总体上,讨论氛围技术性强,参与者对量化评估的细节和结果表现出高度关注。
主要观点
- 👍 Q6常规和大型版本得分相同
- 支持理由:量化水平较低时差异微小,任务离散。
- 反对声音:无明显反对意见。
- 🔥 Q4_K_L表现优于Q5_K_L
- 正方观点:可能是随机机会或某些层的处理不同。
- 反方观点:无明显反对意见。
- 💡 希望有更好设备的作者能进行多轮测试
- 解释:多轮测试有助于减少随机误差,提高评估准确性。
- 💡 量化代码在非8或4位时的表现可能不佳
- 解释:讨论者对量化代码的性能表示担忧。
- 💡 Q4量化版本在某些情况下表现更智能
- 解释:能识别不确定的情况并正确回答命令行问题。
金句与有趣评论
- “😂 What is quite interesting is that Q4_K_L out performed Q5_K_L… I wonder if it’s down to random chance or if there are some layers that are done differently 🤔”
- 亮点:提出了对Q4_K_L表现优于Q5_K_L的可能原因的猜测。
- “🤔 If it not a random good run what could be going on? Is it possible the quantisation code is doing bad things when its not 8 or 4 bit?”
- 亮点:对量化代码在非8或4位时的表现提出质疑。
- “👀 the Q4 does seems to be a bit smarter than the Q6… it says when its not sure about something and got a command line question correct where the Q6 hallucinated some weird results”
- 亮点:对比了Q4和Q6在智能表现上的差异。
情感分析
讨论的总体情感倾向偏向中性,主要集中在技术细节和量化评估结果的分析上。讨论者对量化代码的表现和多轮测试的必要性表现出一定的担忧,但对模型性能的提升和智能表现表示认可。主要分歧点在于量化代码在非8或4位时的表现,以及Q4_K_L表现优于Q5_K_L的原因。
趋势与预测
- 新兴话题:量化代码在非8或4位时的表现,以及多轮测试的必要性。
- 潜在影响:对量化评估方法的改进和模型性能的进一步提升。
详细内容:
标题:关于 Mistral Small 2409 22B GGUF 量化评估结果的热门讨论
最近,Reddit 上有一篇关于 Mistral Small 2409 22B GGUF 量化影响性能的测试帖子引起了广泛关注。该帖子作者在计算机科学类别进行了快速测试,每个模型测试耗时约 43 分钟,并详细列出了不同量化方式下的模型大小和性能表现。此帖获得了众多用户的积极参与,评论数众多。
帖子主要讨论方向集中在不同量化方式对模型性能的影响,以及测试结果的合理性和随机性。
文章将要探讨的核心问题是:这些量化方式的差异究竟是随机因素导致,还是存在更深层次的技术原因?
在讨论中,有人认为 Q6 常规和大型得分相同不奇怪,因为在该量化水平差异极小,这些都是离散任务。有人觉得 Q4_K_L 表现优于 Q5_K_L 很有趣,怀疑是随机机会还是某些层的处理方式不同。还有用户指出由于 Q6 答错超过 40%的问题,可能是 Q4L 量化方式的某些特性使其随机答对了某些问题。也有人希望有更好的机器进行多次测试。
有用户分享道:“我刚刚测试了 Q4 L M 和 Q6 L M 针对一些编程问题,使用 koboldcpp,发现 Q4 似乎比 Q6 更聪明些,Q6 产生了一些奇怪的结果。”
同时,也有用户表示感谢测试,认为结果很有用,并期待更多更新。还有人提出增加其他量化方式或重新测试某些模型。
讨论中的共识是大家都对测试结果表现出了浓厚兴趣,并期待更深入和全面的测试。特别有见地的观点是对量化方式背后技术原因的探讨,丰富了讨论的深度。
总的来说,这次关于 Mistral Small 2409 22B GGUF 量化评估结果的讨论,为相关领域的研究和发展提供了有价值的参考和思考。
感谢您的耐心阅读!来选个表情,或者留个评论吧!