这个话题已经被讨论过很多次了,但HuggingFace最近的评估结果仍然让我感到惊讶。我最喜欢的角色扮演(RP)模型Midnight Miqu 1.5在所有基准测试中的得分都比我自己的Wingless_Imp_8B低。虽然我很想说我的8B模型比传奇的Miqu表现更好,但实际上并非如此,甚至相差甚远。Midnight Miqu(1.5)比任何8B模型都要好几个数量级,完全不是一个量级的。我很清楚Wingless_Imp_8B的情况,我没有进行最大化基准测试(benchmaxxed),因为我根本不在乎这些,我最近才开始做评估,仅仅是因为有人要求。我想说的是:1)Wingless_Imp_8B的高基准测试结果没有造假(至少不是故意的);2)即使没有进行最大化基准测试,结果是“自然的”,但它们仍然不能反映实际的智能水平;3)高基准测试结果是随机偏高的,实际上与任何70B模型(尤其是Midnight Miqu)的实际“自然”智能几乎没有相关性。上面这个例子本身就很可疑,但下面这个例子应该能一锤定音,Phi - Lthy和Phi - Line_14B的例子(简而言之,一个被简化,另一个没有,被简化的那个在遵循指令方面表现更好)。我对两者使用了完全相同的数据集,但是对于Phi - Lthy,我直接从它的结构中去掉了8层,然而它的指令遵循评估(IFeval)得分却显著高于未简化的模型。从40层中去掉8层怎么会让它更好地遵循指令呢?我认为我们应该严肃讨论一下大型语言模型(LLM)的基准测试是否还有任何意义,因为我现在完全怀疑它们是否能准确反映模型能力。一个模型在实际中可能比其他模型智能好几个数量级,但人们会因为低基准分数而忽视它。在HuggingFace上可能存在一个真正的最先进(SOTA)模型,但我们可能会因为它的基准分数一般而忽视它。如果我去年告诉你我有世界上最好的角色扮演模型,但当你看到它的基准分数时,你会发现这个70B大小的“世界上最好的角色扮演模型”的基准分数比一个糟糕的8B模型还差,大多数人都会觉得这是胡说八道。那个模型就是Midnight Miqu(1.5)70B,我仍然认为它即使在今天也比许多现代模型要好。未简化的Phi - 4:https://huggingface.co/SicariusSicariiStuff/Phi - Line_14B;被简化的Phi - 4:https://huggingface.co/SicariusSicariiStuff/Phi - lthy4
讨论总结
原帖作者通过自己模型的例子对基准测试的准确性提出质疑,认为其不能反映模型的真实能力。评论者们从不同角度进行回应,有的分享自己使用模型(如Grok、Gemini等)的体验,有的以微软对Phi - 4 14B的评估为例,还有的从模型的结构调整(如脑损伤模型)、特定使用场景、不同版本对比等方面,表达对基准测试的怀疑,少数人提到指令遵循是不错的基准等不同观点,但总体上怀疑的声音占主导。
主要观点
- 👍 基准测试无意义或不可靠
- 支持理由:如Grok在函数实现小功能时改变数字、模型在实际应用中的表现远不如基准测试中的好等例子,还有Phi - Lthy去除8层后指令遵循能力更好但评估逻辑不合理等情况。
- 反对声音:有人认为部分基准测试(如指令遵循)有意义,客观证明LLM优越性需靠基准测试获胜。
- 🔥 不能仅依靠基准测试评判模型好坏
- 正方观点:模型基准测试结果好不等同于实际表现好,有很多模型在基准测试表现差但实际能力强,且基准测试可能像游戏评分一样不可靠。
- 反方观点:想进入行业获取风投资金就应尽力优化基准测试,这是客观证明模型优越性的方式。
- 💡 基准测试可能存在偏差
- 解释:因为模型训练数据会影响结果,基准测试大多针对技术能力,会使模型偏向技术答案,而且像角色扮演等没有专门的基准测试。
- 💡 公共基准测试可能被过度利用或毫无价值
- 解释:如公共基准测试被游戏化,有评论者直接称公共基准测试毫无价值。
- 💡 个人意见和经验比基准分数更重要
- 解释:由于基准测试存在各种问题,很多情况下个人使用模型的感受更能反映模型的真实能力。
金句与有趣评论
- “😂 作者:I asked grok to implement something small into one of my functions. It changed some of the numbers that I had in a list. Benchmarks are meaningless.”
- 亮点:通过具体的实例(Grok改变列表数字)直接得出基准测试无意义的结论,简单明了。
- “🤔 这些是微软 OFFICIAL 对 Phi - 4 14B 的评估,显示Phi - 4 14B在数学和科学方面明显 “更聪明” 于GPT4o,有人相信这个吗? 甚至微软自己相信吗?”
- 亮点:以微软官方评估为例,对评估结果表示怀疑,引发人们对模型评估准确性的思考。
- “👀 brunocas: Public benchmarks are worthless you mean.”
- 亮点:直截了当地表达公共基准测试毫无价值的观点,非常简洁有力。
- “🤔 基本上,如果一个基准测试不能测试你的特定用例,那它就没什么意义。”
- 亮点:指出基准测试应该与特定用例相结合,从使用场景的角度对基准测试的有效性进行考量。
- “😂 shing3232:getting good grade on exam doesn’t mean you can perform in real life. That’s it”
- 亮点:通过考试成绩类比基准测试结果,形象地说明基准测试结果好不代表实际表现好。
情感分析
总体情感倾向为怀疑,主要分歧点在于基准测试是否有价值。怀疑的一方通过大量模型使用中的实例(如Grok、Gemini等的表现)、模型结构调整后的不合理评估结果(如Phi - Lthy的例子)等来证明基准测试无法反映模型真实能力。而另一方则认为部分基准测试(如指令遵循)有意义,并且在获取风投资金等商业场景下,基准测试获胜是客观证明模型优越性的必要手段。
趋势与预测
- 新兴话题:eqbench类型排行榜能否避免基准测试的不准确、如何制定个人基准测试套件。
- 潜在影响:如果更多人认可基准测试不可靠,可能会促使模型评估方式的变革,模型开发者可能会更注重实际应用中的表现优化,而不是单纯追求基准测试的高分;同时也可能影响投资者对模型的评估标准,不再仅仅依赖基准测试成绩来判断模型的潜力。
详细内容:
《关于基准测试的激烈讨论:LLM 模型能力评估的争议》
在 Reddit 上,一则题为“Benchmarks are a lie, and I have some examples”的帖子引发了广泛关注和热烈讨论。该帖作者指出,自己喜爱的 RP 模型 Midnight Miqu 1.5 在基准测试中的表现低于 Wingless_Imp_8B,但实际使用中前者远优于后者。作者还提到,对 Phi-Lthy 和 Phi-Line_14B 的测试中,去除 8 层的 lobotomized 模型的 IFeval 显著高于未处理的模型,这让他对基准测试的准确性产生了严重怀疑。
这一话题吸引了众多用户参与讨论,评论数众多。主要的讨论焦点集中在基准测试是否能真实反映 LLM 模型的能力。
有人表示,让 Grok 实现一些小功能时,它改变了列表中的数字,认为基准测试毫无意义。也有人感觉 Grok 和 Gemini 在实际应用中表现远不如基准测试。还有用户称,尝试让 Grok 3 实现基于 Electron 的应用,结果是依赖地狱和无法运行的代码。这些用户认为,这些模型在实际中的表现与基准测试声称的相去甚远。
同时,也有不同的声音。有人指出,Sonnet 在代码方面的表现仍优于其他模型。还有人认为 Gemini 2.0 比 1.5 好很多。
在讨论中,有人分享道:“作为一名在相关领域有一定经验的用户,我明确记得对 Google 的 Gemini 抱有很高期望,但多次体验后却深感失望。在编码和日常交流中,Gemini - 1.5 pro 虽然在某些排行榜上表现出色,但仍无法满足我的日常需求。”
也有用户提出,对 STEM 学科的模型训练相对容易,因为它们处理的是结构化知识和确定性解决方案,所以 Phi - 4 在这方面表现出色是有道理的。但也有人反驳称,并非所有 STEM 学科都能如此简单地进行评估。
有人认为基准测试就像大型游戏网站给 AAA 游戏打出的分数,更倾向于相信实际用户的意见。还有人表示,公共基准测试毫无价值,自己更倾向于根据个人使用体验来判断模型的优劣。
总之,关于基准测试能否有效评估 LLM 模型能力的讨论仍在继续,各方观点激烈碰撞,尚无定论。
感谢您的耐心阅读!来选个表情,或者留个评论吧!