原贴链接

在我能想到的所有任务中,在我看来Claude以很大优势胜过其他所有模型。我构建了三个人工智能代理,它们负责研究、撰写和联系客户。Claude绝对把其他模型打得一败涂地,但在基准测试中,Claude通常被OpenAI和谷歌的模型打败。当我问,我们怎么知道这些实验室不是仅仅通过过度拟合他们的模型以使其在基准测试中表现良好来进行基准测试呢,答案总是‘是的,我们真的不知道’。我们不仅永远无法确定,而且他们绝对有动机这么做。我记得就在几个月前,每当有一个新模型发布,在MMLU专业测试中能有0.5%或者其他更好的表现时,如果价格相似,我就会让我的代理切换使用那个新模型。(多亏了OpenRouter,这真的很容易)。此时,我只能运行这些模型,看看哪个输出在它们的任务中表现最好(我和同事的看法)。你如何评估模型性能呢?基准测试似乎对那些想要在AI基准测试中获胜的实验室有很大偏向,幸运的是Anthropic(克劳德的研发公司)没有。期待回复。

讨论总结

原帖作者认为AI基准测试无用,因为在自己的使用场景中Claude表现远超其他模型,但在基准测试中Claude却常被其他模型超越,怀疑实验室为了在基准测试中表现好而过度拟合模型。评论者们对此观点看法不一,一些人表示赞同,列举了如模型在基准测试和实际使用中的表现差异、基准测试缺乏显著性衡量、可能存在人为操作等理由;另一些人则反对,认为基准测试是有用的,如可衡量模型进步、促使公司竞争合作推动模型发展等,还有人从不同角度阐述了自己对模型性能评估的看法,包括基于自身使用构建测试、考虑任务类型、对比不同模型在不同场景下的表现等内容。

主要观点

  1. 👍 AI基准测试可能无用
    • 支持理由:模型在基准测试和实际使用中的表现存在差异,如在创意写作方面,有些模型在基准测试得分低但实际表现不错;部分基准测试可能被人为操作,如模型制造商操纵排行榜;基准测试缺乏显著性衡量等。
    • 反对声音:基准测试可衡量模型进步,对人类社会正常运转有重要意义,众多基准测试促使公司竞争合作推动模型快速发展。
  2. 🔥 应基于自身使用构建模型性能评估方式
    • 正方观点:不同人有不同任务需求,基准测试往往过于通用,自己构建任务特定测试能更好评估模型;在自己环境中测试是评估模型性能的可靠方式。
    • 反方观点:构建好的基准测试并对顶级模型进行测试需要花费大量时间;自己构建的测试可能不全面、缺乏权威性。
  3. 💡 模型性能评估取决于任务类型
    • 解释:如Claude在编码方面表现较好,但在总结和处理更复杂报告时表现不佳;OpenAI在编码方面表现较差,但在处理较长提示时表现更好。
  4. 💡 不同模型各有优劣,不存在绝对“最佳”的模型
    • 解释:如多数简单任务可由8 - 14b模型结合RAG、互联网搜索功能完成,但复杂任务可能需要适时更换模型;不同模型在不同场景下表现不同,没有一个模型能在所有方面都表现最优。
  5. 💡 基准测试不是评判人工智能模型的唯一依据
    • 解释:多数训练集可能被污染,导致基准测试价值受限;个人经验在评估人工智能模型性能时是更好的试金石,基准测试只能作为一个辅助数据点。

金句与有趣评论

  1. “😂 I think the only one who doesn’t know yet are the companies benchmaxxing. Not sure who they think they are fooling. the investors. they are fooling the investors. and the general public that doesn’t know any better.”
    • 亮点:幽默地指出做基准测试手脚的公司愚弄投资者和大众这一现象。
  2. “🤔 There is no "best" model, every model is usually good at something and bad at something else.”
    • 亮点:简洁地概括了不同模型各有优劣的观点。
  3. “👀 I’m starting to think reddit is just an amalgamation of fake engagement bait”
    • 亮点:虽然与主题关联性不大,但独特地表达了对reddit平台的看法。
  4. “😂 I find livebench to be quiet accurate in my testing. Claude is just not as hyped up as everyone says”
    • 亮点:通过个人测试结果反驳大众对Claude的看法以及对Livebench的认可。
  5. “🤔 Benchmarks are extremely useful even for humans. It’s how we decide if people are apt to drive or are apt to be neurosurgeons, without a way to test capabilities it would be significantly harder to make our societies work smoothly.”
    • 亮点:通过人类社会中驾驶、神经外科医生能力的测试类比,强调基准测试的必要性。

情感分析

总体情感倾向较为复杂,既有对原帖认为AI基准测试无用观点的赞同,也有反对。主要分歧点在于对基准测试价值的判断。赞同者可能是因为在实际使用中发现模型的基准测试结果与表现不符,或者怀疑基准测试存在人为操作等问题;反对者可能更多从理论上认为基准测试有助于衡量模型进步、推动模型发展等方面考虑。

趋势与预测

  • 新兴话题:可能会有更多关于如何构建科学合理的模型性能评估体系的讨论,以解决基准测试存在的问题;对于不同模型在特定任务场景下的优化使用也可能会成为后续话题。
  • 潜在影响:如果更多人认可基准测试存在问题,可能会促使相关实验室改进基准测试方法;而对模型性能评估方式的关注,可能会影响人们对不同AI模型的选择和使用,进而影响AI模型在各个领域的应用效果。

详细内容:

标题:对 AI 基准测试有效性的热议

近日,Reddit 上一篇题为“我开始认为 AI 基准测试无用”的帖子引发了广泛关注。该帖子获得了众多点赞和大量评论,主要讨论了当前 AI 基准测试在评估模型性能方面的可靠性。

原帖作者指出,在其使用的各种任务中,Claude 表现出色,远超其他模型。然而,Claude 在基准测试中却常被 OpenAI 和 Google 模型超越。作者质疑这些实验室是否为在基准测试中取得好成绩而过度拟合模型,并表示自己现在更倾向于直接运行模型,根据实际输出效果来评估性能。

讨论中主要观点如下: 有人认为可以根据自己的特定用例编写基准测试,也有人指出编写有效的基准测试并运行它们需要耗费大量时间和精力。一些用户分享了自己对不同模型的使用体验,比如有人称 o1 在某些方面表现不佳,而 Claude 在编码方面表现出色。

同时,也存在一些有趣和独特的观点。比如有人认为如果需求是创新和新奇,基准测试就很难衡量;还有人指出模型的表现因任务而异,不能简单地认为某个模型是最好的。

关于基准测试是否有用,大家看法不一。有人认为基准测试有助于衡量进步,就像人类的测试一样重要;但也有人认为当前的基准测试存在问题,比如可能导致模型过度拟合,而且不能完全反映实际使用中的性能。

总的来说,这场讨论反映了大家对 AI 基准测试的复杂态度和深入思考。那么,究竟该如何更有效地评估 AI 模型的性能?基准测试在未来又将扮演怎样的角色?这值得我们进一步探讨。