使用 chigkim/Ollama-MMLU-Pro,我测试了以下模型上的 MMLU Pro:Gemma2-9b-instruct-q8_0、Gemma2-27b-instruct-q2_K、q3_K_S 和 q3_K_M。以下是一些有趣的观察结果:
- 9b-q8_0 模型比 27b-q2_K 模型高出 4.18 分。
- 27b-q3_K_S 模型比 27b-q3_K_M 模型高出 0.91 分——差异不到 1 分可能不显著。
以下是完整结果。
模型 | 总体 | 生物学 | 商业 | 化学 | 计算机科学 | 经济学 | 工程学 | 健康 | 历史 | 法律 | 数学 | 哲学 | 物理学 | 心理学 | 其他 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
9b-q8_0 | 48.55 | 66.53 | 54.50 | 45.23 | 45.37 | 60.90 | 25.70 | 54.65 | 52.23 | 32.88 | 47.22 | 47.29 | 43.11 | 65.66 | 54.87 |
27b-q2_K | 44.37 | 72.11 | 47.53 | 35.07 | 41.71 | 61.14 | 19.30 | 51.10 | 48.82 | 32.43 | 41.67 | 42.69 | 35.95 | 62.16 | 51.52 |
27b-q3_K_S | 54.14 | 77.68 | 57.41 | 50.18 | 53.90 | 67.65 | 31.06 | 60.76 | 59.06 | 39.87 | 50.04 | 50.50 | 49.42 | 71.43 | 58.66 |
27b-q3_K_M | 53.23 | 75.17 | 61.09 | 48.67 | 51.95 | 68.01 | 27.66 | 61.12 | 59.06 | 38.51 | 48.70 | 47.90 | 48.19 | 71.18 | 58.23 |
这里是完整日志。链接将在 7 天后失效。
讨论总结
本次讨论主要集中在对不同模型的性能比较上,特别是Gemma2-9b-instruct-q8_0、Gemma2-27b-instruct-q2_K、q3_K_S和q3_K_M等模型。讨论内容包括各模型在多个领域的得分情况,以及模型在GPU使用和多语言支持方面的表现。此外,还有一些关于模型限制和未来改进的讨论。
主要观点
- 👍 Gemma2-9b-instruct-q8_0模型在总体得分上比Gemma2-27b-instruct-q2_K模型高出4.18分
- 支持理由:9b-q8_0模型在多个领域的表现优于27b-q2_K模型。
- 反对声音:无明显反对声音。
- 🔥 27b-q3_K_S模型在16GB VRAM上的表现优秀,适用于快速和多语言回答
- 正方观点:该模型在多个领域的表现均较好。
- 反方观点:无明显反方观点。
- 💡 Gemma 27B模型无法接受系统提示,限制了其应用灵活性
- 解释:这种设计可能是出于某种策略考虑,但限制了模型的应用范围。
金句与有趣评论
- “😂 CroquetteLauncher:Gemma2 instruct 27b-q3_K_S is very nice if you want 100% GPU inference on a 16gb card.”
- 亮点:强调了该模型在GPU使用上的优势。
- “🤔 Iory1998:The main problem of Gemma 27B in my opinion is it does not accept any system prompt.”
- 亮点:指出了Gemma 27B模型的主要限制。
- “👀 Single_Ring4886:Shame q4 missing thats where model gets really smarter”
- 亮点:表达了对于q4模型性能的期待。
情感分析
讨论的总体情感倾向较为中性,主要集中在技术讨论和模型性能分析上。争议点主要在于模型的性能差异和设计限制,以及对未来模型改进的期待。
趋势与预测
- 新兴话题:q4模型的性能表现可能会成为后续讨论的热点。
- 潜在影响:模型性能的提升可能会对相关领域的应用产生积极影响。
感谢您的耐心阅读!来选个表情,或者留个评论吧!