使用chigkim/Ollama-MMLU-Pro,我运行了MMLU Pro基准测试,对Gemma2 9b-instruct和27b-instruct在Ollama上可用的更多quants进行了测试。以下是一些有趣的观察结果:
- 出于某种原因,许多S quants的得分高于M quants。差异很小,所以可能不显著。
- 9B-q5_K_S的得分高于27B-q2_K。看起来q2_K大大降低了质量。
- 对于9b,它在9b-q5_K_S之后停止了改进。
模型 | 总体 | 生物学 | 商业 | 化学 | 计算机科学 | 经济学 | 工程学 | 健康 | 历史 | 法律 | 数学 | 哲学 | 物理 | 心理学 | 其他 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
9b-q2_K | 42.02 | 64.99 | 44.36 | 35.16 | 37.07 | 55.09 | 22.50 | 43.28 | 48.56 | 29.25 | 41.52 | 39.28 | 36.26 | 59.27 | 48.16 |
9b-q3_K_S | 44.92 | 65.27 | 52.09 | 38.34 | 42.68 | 61.02 | 22.08 | 46.21 | 51.71 | 31.34 | 44.49 | 41.28 | 38.49 | 62.53 | 50.00 |
9b-q3_K_M | 46.43 | 60.53 | 50.44 | 42.49 | 41.95 | 63.74 | 23.63 | 49.02 | 54.33 | 32.43 | 46.85 | 40.28 | 41.72 | 62.91 | 53.14 |
9b-q3_K_L | 46.95 | 63.18 | 52.09 | 42.31 | 45.12 | 62.80 | 23.74 | 51.22 | 50.92 | 33.15 | 46.26 | 43.89 | 40.34 | 63.91 | 54.65 |
9b-q4_K_S | 48.31 | 66.67 | 53.74 | 45.58 | 43.90 | 61.61 | 25.28 | 51.10 | 53.02 | 34.70 | 47.37 | 43.69 | 43.65 | 64.66 | 54.87 |
9b-q4_K_M | 47.73 | 64.44 | 53.74 | 44.61 | 43.90 | 61.97 | 24.46 | 51.22 | 54.07 | 31.61 | 47.82 | 43.29 | 42.73 | 63.78 | 55.52 |
9b-q5_K_S | 48.99 | 70.01 | 55.01 | 45.76 | 45.61 | 63.51 | 24.77 | 55.87 | 53.81 | 32.97 | 47.22 | 47.70 | 42.03 | 64.91 | 55.52 |
9b-q5_K_M | 48.99 | 68.76 | 55.39 | 46.82 | 45.61 | 62.32 | 24.05 | 56.60 | 53.54 | 32.61 | 46.93 | 46.69 | 42.57 | 65.16 | 56.60 |
9b-q6_K | 48.99 | 68.90 | 54.25 | 45.41 | 47.32 | 61.85 | 25.59 | 55.75 | 53.54 | 32.97 | 47.52 | 45.69 | 43.57 | 64.91 | 55.95 |
9b-q8_0 | 48.55 | 66.53 | 54.50 | 45.23 | 45.37 | 60.90 | 25.70 | 54.65 | 52.23 | 32.88 | 47.22 | 47.29 | 43.11 | 65.66 | 54.87 |
9b-fp16 | 48.89 | 67.78 | 54.25 | 46.47 | 44.63 | 62.09 | 26.21 | 54.16 | 52.76 | 33.15 | 47.45 | 47.09 | 42.65 | 65.41 | 56.28 |
27b-q2_K | 44.63 | 72.66 | 48.54 | 35.25 | 43.66 | 59.83 | 19.81 | 51.10 | 48.56 | 32.97 | 41.67 | 42.89 | 35.95 | 62.91 | 51.84 |
27b-q3_K_S | 54.14 | 77.68 | 57.41 | 50.18 | 53.90 | 67.65 | 31.06 | 60.76 | 59.06 | 39.87 | 50.04 | 50.50 | 49.42 | 71.43 | 58.66 |
27b-q3_K_M | 53.23 | 75.17 | 61.09 | 48.67 | 51.95 | 68.01 | 27.66 | 61.12 | 59.06 | 38.51 | 48.70 | 47.90 | 48.19 | 71.18 | 58.23 |
27b-q3_K_L | 54.06 | 76.29 | 61.72 | 49.03 | 52.68 | 68.13 | 27.76 | 61.25 | 54.07 | 40.42 | 50.33 | 51.10 | 48.88 | 72.56 | 59.96 |
27b-q4_K_S | 54.85 | 76.15 | 61.85 | 48.85 | 55.61 | 68.13 | 32.30 | 62.96 | 56.43 | 39.06 | 51.89 | 50.90 | 49.73 | 71.80 | 60.93 |
27b-q4_K_M | 54.80 | 76.01 | 60.71 | 50.35 | 54.63 | 70.14 | 30.96 | 62.59 | 59.32 | 40.51 | 50.78 | 51.70 | 49.11 | 70.93 | 59.74 |
27b-q5_K_S | 56.14 | 77.41 | 63.37 | 50.71 | 57.07 | 70.73 | 31.99 | 64.43 | 58.27 | 42.87 | 53.15 | 50.70 | 51.04 | 72.31 | 59.85 |
27b-q5_K_M | 55.97 | 77.41 | 63.37 | 51.94 | 56.10 | 69.79 | 30.34 | 64.06 | 58.79 | 41.14 | 52.55 | 52.30 | 51.35 | 72.18 | 60.93 |
27b-q6_K | 56.85 | 77.82 | 63.50 | 52.39 | 56.34 | 71.68 | 32.51 | 63.33 | 58.53 | 40.96 | 54.33 | 53.51 | 51.81 | 73.56 | 63.20 |
27b-q8_0 | 56.96 | 77.27 | 63.88 | 52.83 | 58.05 | 71.09 | 32.61 | 64.06 | 59.32 | 42.14 | 54.48 | 52.10 | 52.66 | 72.81 | 61.47 |
讨论总结
本次讨论主要集中在Gemma2 9B和27B模型的量化版本在MMLU Pro基准测试中的表现。参与者们详细探讨了不同量化级别的性能差异,特别是Q4量化版本被认为是性能和效率的“甜蜜点”。此外,讨论还涉及了硬件配置、测试方法、系统提示的影响以及量化过程中的质量损失和性能提升的权衡。整体氛围偏向技术性,参与者们通过分享测试结果和经验,共同探讨了模型的优化方向和潜在的应用场景。
主要观点
- 👍 Q4量化版本在性能和效率上表现良好
- 支持理由:Q4量化版本被认为是性能和效率的“甜蜜点”,尽管与更高比特的量化版本相比,差异不大。
- 反对声音:无明显反对声音,但有讨论其他量化版本的性能。
- 🔥 使用cuBLAS或rocBLAS时,IQ4_XS量化版本的性能接近Q4_K_M
- 正方观点:使用cuBLAS或rocBLAS可以提升IQ4_XS量化版本的性能。
- 反方观点:无明显反方观点,但有讨论其他量化方法的性能。
- 💡 9b-q5_K_S模型得分高于fp16模型
- 解释:这一结果令人意外,可能由于随机因素,较小量化的模型有时会得到更好的答案。
- 👀 系统提示对Gemma 2性能的影响
- 解释:MMLU Pro使用系统提示,而Gemma 2未针对此进行训练,可能影响结果的可靠性。
- 🤔 量化过程中的质量损失和性能提升的权衡
- 解释:讨论了量化过程中的质量损失和性能提升的权衡,以及不同量化方法的应用场景。
金句与有趣评论
- “😂 It looks like Q4 is still the "sweet spot"; the difference between it and more-bitful quants is fairly insignificant.”
- 亮点:强调了Q4量化版本在性能和效率上的优势。
- “🤔 How did q5_k_s beat fp16?!”
- 亮点:对意外的测试结果表示惊讶,引发了对模型性能的深入讨论。
- “👀 A mild problem with MMLU pro and Gemma 2: MMLU pro uses a system prompt, and Gemma 2 wasn’t trained with a system prompt.”
- 亮点:指出了系统提示对Gemma 2性能的可能影响,引发了对测试方法的讨论。
情感分析
讨论的总体情感倾向偏向中性和技术性,参与者们主要关注模型的性能和量化方法的细节。主要分歧点在于不同量化方法的性能比较和系统提示的影响,可能的原因是参与者们对模型的优化方向有不同的看法。
趋势与预测
- 新兴话题:量化方法在ARM CPU上的应用和性能,以及系统提示对模型性能的影响。
- 潜在影响:对相关领域或社会的潜在影响主要体现在模型的优化和应用场景的拓展上,特别是在硬件配置和量化方法的选择上。
详细内容:
《关于 Gemma2 9B 和 27B 量化比较的热门讨论》
在 Reddit 上,一则题为“Interesting Results: Comparing Gemma2 9B and 27B Quants Part 2”的帖子引发了热烈讨论。该帖子通过chigkim/Ollama-MMLU-Pro对 Gemma2 9b-instruct 和 27b-instruct 进行了MMLU Pro benchmark,并展示了一系列有趣的观察结果,获得了众多关注和大量评论。
帖子中的主要讨论焦点集中在不同量化方法下模型的性能表现及差异。有人认为 Q4 仍是“甜蜜点”,其与更高位量化方法的差异不显著。还有人提到对于不同的硬件和应用场景,如使用 cuBLAS 或 rocBLAS 时可考虑 IQ4_XS,对于 ARM CPU 有特定的量化格式等。
有用户分享道:“对于 9b,q4_k_m 比较合理,但对于 27b,q4_k_m 比 q6_k 少 2 分。” 有人提出疑问为何没有 q4_0,也有人认为 q4_0 在旧卡上运行更快,性能与 Q4KM 相似。
关于 q5_k_s 为何能胜过 fp16,有人认为这可能只是随机因素导致的微小差异,建议多次测试。还有用户提到由于 MMLU pro 的测试机制可能会带来一些随机性。
有人感谢发帖者进行的测试并询问运行时间和所需 VRAM,发帖者回复称 9b 的量化测试在 m3 max 64gb 上进行了几周,27b 除 q8_0 外的量化在 rtx3090 24gb 上进行。
对于测试中的一些问题,如 Gemma2 未经过系统提示训练可能影响性能,发帖者认为系统提示影响甚微。
这场讨论展示了大家对于 Gemma2 不同量化方法的深入探讨和不同见解,为相关研究和应用提供了丰富的参考。但关于某些量化方法的优劣以及其对性能的具体影响,仍有待进一步的研究和实践来明确。
感谢您的耐心阅读!来选个表情,或者留个评论吧!