原贴链接

这个话题已经被讨论过很多次了，但HuggingFace最近的评估结果仍然让我感到惊讶。我最喜欢的角色扮演（RP）模型Midnight Miqu 1.5在所有基准测试中的得分都比我自己的Wingless_Imp_8B低。虽然我很想说我的8B模型比传奇的Miqu表现更好，但实际上并非如此，甚至相差甚远。Midnight Miqu（1.5）比任何8B模型都要好几个数量级，完全不是一个量级的。我很清楚Wingless_Imp_8B的情况，我没有进行最大化基准测试（benchmaxxed），因为我根本不在乎这些，我最近才开始做评估，仅仅是因为有人要求。我想说的是：1）Wingless_Imp_8B的高基准测试结果没有造假（至少不是故意的）；2）即使没有进行最大化基准测试，结果是“自然的”，但它们仍然不能反映实际的智能水平；3）高基准测试结果是随机偏高的，实际上与任何70B模型（尤其是Midnight Miqu）的实际“自然”智能几乎没有相关性。上面这个例子本身就很可疑，但下面这个例子应该能一锤定音，Phi - Lthy和Phi - Line_14B的例子（简而言之，一个被简化，另一个没有，被简化的那个在遵循指令方面表现更好）。我对两者使用了完全相同的数据集，但是对于Phi - Lthy，我直接从它的结构中去掉了8层，然而它的指令遵循评估（IFeval）得分却显著高于未简化的模型。从40层中去掉8层怎么会让它更好地遵循指令呢？我认为我们应该严肃讨论一下大型语言模型（LLM）的基准测试是否还有任何意义，因为我现在完全怀疑它们是否能准确反映模型能力。一个模型在实际中可能比其他模型智能好几个数量级，但人们会因为低基准分数而忽视它。在HuggingFace上可能存在一个真正的最先进（SOTA）模型，但我们可能会因为它的基准分数一般而忽视它。如果我去年告诉你我有世界上最好的角色扮演模型，但当你看到它的基准分数时，你会发现这个70B大小的“世界上最好的角色扮演模型”的基准分数比一个糟糕的8B模型还差，大多数人都会觉得这是胡说八道。那个模型就是Midnight Miqu（1.5）70B，我仍然认为它即使在今天也比许多现代模型要好。未简化的Phi - 4：https://huggingface.co/SicariusSicariiStuff/Phi - Line_14B；被简化的Phi - 4：https://huggingface.co/SicariusSicariiStuff/Phi - lthy4

讨论总结

原帖作者通过自己模型的例子对基准测试的准确性提出质疑，认为其不能反映模型的真实能力。评论者们从不同角度进行回应，有的分享自己使用模型（如Grok、Gemini等）的体验，有的以微软对Phi - 4 14B的评估为例，还有的从模型的结构调整（如脑损伤模型）、特定使用场景、不同版本对比等方面，表达对基准测试的怀疑，少数人提到指令遵循是不错的基准等不同观点，但总体上怀疑的声音占主导。

主要观点

👍 基准测试无意义或不可靠
- 支持理由：如Grok在函数实现小功能时改变数字、模型在实际应用中的表现远不如基准测试中的好等例子，还有Phi - Lthy去除8层后指令遵循能力更好但评估逻辑不合理等情况。
- 反对声音：有人认为部分基准测试（如指令遵循）有意义，客观证明LLM优越性需靠基准测试获胜。
🔥 不能仅依靠基准测试评判模型好坏
- 正方观点：模型基准测试结果好不等同于实际表现好，有很多模型在基准测试表现差但实际能力强，且基准测试可能像游戏评分一样不可靠。
- 反方观点：想进入行业获取风投资金就应尽力优化基准测试，这是客观证明模型优越性的方式。
💡 基准测试可能存在偏差
- 解释：因为模型训练数据会影响结果，基准测试大多针对技术能力，会使模型偏向技术答案，而且像角色扮演等没有专门的基准测试。
💡 公共基准测试可能被过度利用或毫无价值
- 解释：如公共基准测试被游戏化，有评论者直接称公共基准测试毫无价值。
💡 个人意见和经验比基准分数更重要
- 解释：由于基准测试存在各种问题，很多情况下个人使用模型的感受更能反映模型的真实能力。

金句与有趣评论

“😂 作者：I asked grok to implement something small into one of my functions. It changed some of the numbers that I had in a list. Benchmarks are meaningless.”
- 亮点：通过具体的实例（Grok改变列表数字）直接得出基准测试无意义的结论，简单明了。
“🤔 这些是微软 OFFICIAL 对 Phi - 4 14B 的评估，显示Phi - 4 14B在数学和科学方面明显 “更聪明” 于GPT4o，有人相信这个吗？ 甚至微软自己相信吗?”
- 亮点：以微软官方评估为例，对评估结果表示怀疑，引发人们对模型评估准确性的思考。
“👀 brunocas: Public benchmarks are worthless you mean.”
- 亮点：直截了当地表达公共基准测试毫无价值的观点，非常简洁有力。
“🤔 基本上，如果一个基准测试不能测试你的特定用例，那它就没什么意义。”
- 亮点：指出基准测试应该与特定用例相结合，从使用场景的角度对基准测试的有效性进行考量。
“😂 shing3232：getting good grade on exam doesn’t mean you can perform in real life. That’s it”
- 亮点：通过考试成绩类比基准测试结果，形象地说明基准测试结果好不代表实际表现好。

情感分析

总体情感倾向为怀疑，主要分歧点在于基准测试是否有价值。怀疑的一方通过大量模型使用中的实例（如Grok、Gemini等的表现）、模型结构调整后的不合理评估结果（如Phi - Lthy的例子）等来证明基准测试无法反映模型真实能力。而另一方则认为部分基准测试（如指令遵循）有意义，并且在获取风投资金等商业场景下，基准测试获胜是客观证明模型优越性的必要手段。

趋势与预测

新兴话题：eqbench类型排行榜能否避免基准测试的不准确、如何制定个人基准测试套件。
潜在影响：如果更多人认可基准测试不可靠，可能会促使模型评估方式的变革，模型开发者可能会更注重实际应用中的表现优化，而不是单纯追求基准测试的高分；同时也可能影响投资者对模型的评估标准，不再仅仅依赖基准测试成绩来判断模型的潜力。

详细内容：

《关于基准测试的激烈讨论：LLM 模型能力评估的争议》

在 Reddit 上，一则题为“Benchmarks are a lie, and I have some examples”的帖子引发了广泛关注和热烈讨论。该帖作者指出，自己喜爱的 RP 模型 Midnight Miqu 1.5 在基准测试中的表现低于 Wingless_Imp_8B，但实际使用中前者远优于后者。作者还提到，对 Phi-Lthy 和 Phi-Line_14B 的测试中，去除 8 层的 lobotomized 模型的 IFeval 显著高于未处理的模型，这让他对基准测试的准确性产生了严重怀疑。

这一话题吸引了众多用户参与讨论，评论数众多。主要的讨论焦点集中在基准测试是否能真实反映 LLM 模型的能力。

有人表示，让 Grok 实现一些小功能时，它改变了列表中的数字，认为基准测试毫无意义。也有人感觉 Grok 和 Gemini 在实际应用中表现远不如基准测试。还有用户称，尝试让 Grok 3 实现基于 Electron 的应用，结果是依赖地狱和无法运行的代码。这些用户认为，这些模型在实际中的表现与基准测试声称的相去甚远。

同时，也有不同的声音。有人指出，Sonnet 在代码方面的表现仍优于其他模型。还有人认为 Gemini 2.0 比 1.5 好很多。

在讨论中，有人分享道：“作为一名在相关领域有一定经验的用户，我明确记得对 Google 的 Gemini 抱有很高期望，但多次体验后却深感失望。在编码和日常交流中，Gemini - 1.5 pro 虽然在某些排行榜上表现出色，但仍无法满足我的日常需求。”

也有用户提出，对 STEM 学科的模型训练相对容易，因为它们处理的是结构化知识和确定性解决方案，所以 Phi - 4 在这方面表现出色是有道理的。但也有人反驳称，并非所有 STEM 学科都能如此简单地进行评估。

有人认为基准测试就像大型游戏网站给 AAA 游戏打出的分数，更倾向于相信实际用户的意见。还有人表示，公共基准测试毫无价值，自己更倾向于根据个人使用体验来判断模型的优劣。

总之，关于基准测试能否有效评估 LLM 模型能力的讨论仍在继续，各方观点激烈碰撞，尚无定论。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#