在我之前比较MLX和Llama.cpp速度的帖子(https://www.reddit.com/r/LocalLLaMA/comments/1hes7wm/speed_test_2_llamacpp_vs_mlx_with_llama3370b_and/)中,有关于MLX - 4bit和GGUF - q4_K_M质量的讨论。听起来q4_K_M每个权重有4.7位(bpw),而考虑到缩放和偏差时MLX - 4bit有4.5bpw。更多细节可查看上述链接中的讨论,在那里/u/ggerganov和/u/awnihannun对这些模型之间的技术差异进行了说明。这可能不是衡量质量的完美测试,但出于好奇,我在我的M3 - Max 64GB上使用相同设置(温度 = 0.0,top_p = 1.0,最大标记数 = 2048等)对MMLU Pro针对这两种格式进行了测试。我使用的模型是[bartowski/Llama - 3.2 - 3B - Instruct - GGUF](https://huggingface.co/bartowski/Llama - 3.2 - 3B - Instruct - GGUF)和[mlx - community/Llama - 3.2 - 3B - Instruct - 4bit](https://huggingface.co/mlx - community/Llama - 3.2 - 3B - Instruct - 4bit)。我还按照要求额外运行了iq4_XS。我选择了一个较小的模型,因为我认为量化对较小模型的影响更大。此外,使用[12k个问题](https://huggingface.co/datasets/TIGER - Lab/MMLU - Pro)运行基准测试花费的时间更少。我使用的引擎:MLX - LM:0.20.4与MLX:0.21.1;Llama.cpp:b4326。然后给出了不同引擎、量化方式下在不同学科上的性能数据表格。
讨论总结
原帖对MLX - 4bit和GGUF - q4_K_M在MMLU Pro测试中的表现进行对比,使用了特定模型和相同设置。评论者们从多个角度展开讨论,包括对相同数据集训练下模型输出差异的惊奇,对测试结果是否在误差范围内的争议,还有关于两种格式可比性的讨论,也有评论者结合自身测试经验与原帖数据进行比较,此外还有对MLX相关现象的好奇、对原帖作者数据挖掘工作的感谢以及对速度比较等问题的询问等。
主要观点
- 👍 相同数据集训练的机器模型输出不同很疯狂
- 支持理由:在机器学习领域,按常理相同数据训练的模型输出应相似,但实际并非如此。
- 反对声音:无
- 🔥 总体分数差异小表明两种格式具有可比性
- 正方观点:0.05分的总体差异不大。
- 反方观点:生物学上5.71分的差异较大,不能简单认为两者可比。
- 💡 原帖数据显示MLX整体较好,但与评论者自身测试经验不同
- 解释:原帖数据与评论者个人在MLX和Q4_K_M测试中的经验有冲突。
- 💡 测试结果可能取决于测试的用途
- 解释:不同用途下,q4_K_M和MLX在不同科目中的得分有高低之分。
- 💡 对MLX在较小空间保持相同质量感到好奇
- 解释:MLX在比GGUF更小的空间能保持相同质量,引发好奇。
金句与有趣评论
- “😂 Crazy to think some machine model trained on same set of data, have different outputs.”
- 亮点:简洁地指出机器学习中一个看似矛盾的常见现象。
- “🤔 Honestly, it looks like a margin of error.”
- 亮点:从数字直观角度提出测试结果可能是误差范围。
- “👀 The overall difference of 0.05 points suggests the two formats are quite comparable, contrary to some claims that MLX - 4bit is significantly inferior to q4_K_M.”
- 亮点:通过数据对比得出两种格式可比性的观点,反驳了一些关于两者差异的说法。
- “🤔 It’s interesting because your data seems to suggest that MLX is better overall, but this has not been my experience testing between MLX and Q4_K_M”
- 亮点:将原帖数据结论与个人测试经验进行对比,引出思考。
- “😉 Thanks so much for being such a datamine for all of us.”
- 亮点:表达对原帖作者数据挖掘工作的感谢。
情感分析
总体情感倾向比较中性,大家更多是在理性地讨论测试结果。主要分歧点在于测试结果是否能表明两种格式的可比性以及原帖数据和个人经验的差异,原因是不同人从不同角度看待测试数据,如从整体数据差异、特定科目分数差异、个人测试经验等方面出发,从而得出不同结论。
趋势与预测
- 新兴话题:MLX在更小空间保持相同质量对GGUF的潜在影响可能会引发后续讨论。
- 潜在影响:对于机器学习领域相关模型的选择、评估以及优化可能会产生一定影响,有助于人们进一步理解不同模型格式在不同场景下的性能表现。
详细内容:
标题:关于 MLX-4bit 与 GGUF-q4_K_M 的 MMLU Pro 测试引发的热门讨论
最近,Reddit 上一篇关于“MMLU Pro: MLX-4bit 与 GGUF-q4_K_M”的帖子引发了众多关注。此贴获得了大量的点赞和评论,引发了一场关于这两种模型质量的热烈讨论。
原帖作者在之前的对比帖子中讨论了 MLX 和 Llama.cpp 的速度差异,此次则对 MLX-4bit 和 GGUF-q4_K_M 的质量进行了探讨。作者在 M3-Max 64GB 上使用相同设置对两种格式进行了 MMLU Pro 测试,还提到了使用的模型和引擎。
这场讨论的焦点集中在测试结果的分析和解读上。有人认为,尽管是在相同数据集上训练的机器模型,却有不同的输出,这令人感到疯狂。还有人指出,总体上 0.05 分的差异表明两种格式相当可比,与一些认为 MLX-4bit 明显劣于 q4_K_M 的说法相反。
比如,有用户分享道:“说实话,看起来像是误差范围。”另一位用户表示:“总体 0.05 分的差异表明这两种格式相当接近,不过生物学方面 5.71 分的差异让人有些疑惑,不确定该如何理解,似乎不能简单视为误差范围。”
同时,也有用户提到数据似乎表明 MLX 总体上更好,但这与自己的测试经验不符。有人感谢作者为大家提供了如此详细的数据,还好奇不同模型的速度差异,比如有人做了测试并分享:“Iquant 应该更快。我对同一个模型的 22B 的 iquant 和 q4km 进行了快速测试。IQ 大约快 10%,并且使用的内存少约 10%。”
讨论中的共识在于大家都对测试结果表现出了浓厚兴趣,并期待更深入的分析和更多的测试数据。而特别有见地的观点在于对生物学方面差异的探讨以及对不同量化方式在速度和内存使用上的分析。
不过,这场讨论仍存在一些争议点,比如对于生物学方面巨大差异的原因尚未有明确结论,以及单次测试结果的可靠性也有待进一步探讨。
总之,这场关于 MLX-4bit 与 GGUF-q4_K_M 的讨论丰富而深入,为相关领域的研究和应用提供了有价值的参考和思考方向。
感谢您的耐心阅读!来选个表情,或者留个评论吧!