原贴链接

为了年终总结，我收集了关于AI基准测试多快变得过时的数据（https://r0bk.github.io/killedbyllm/）。回顾起来很有趣：2023年：GPT - 4确实是新的突破。它不仅超越了最先进水平（SOTA）的分数，还完全使基准测试达到饱和。这是人类首次创造出能通过图灵测试的东西，形成了明显的前后分水岭。2024年：其他模型迎头赶上，进展时断时续。O1/O3利用测试时计算使数学和推理基准测试达到饱和，Sonnet 3.5/4o使一些基准测试的数值增加到饱和，并使新的视觉评估达到饱和，Llama 3/Qwen 2.5使开放权重模型全面具备竞争力。如今：我们需要更好的基准测试。我很惊讶看到一些原以为到2030年才能解决的任务现在已经过时了，但我们仍然不能信任模型去做初级人员做的相同任务。很明显我们的基准测试还不能衡量现实世界的可靠性，我希望在2025年基准测试能像模型一样取得巨大进步。如果你想贡献，请告诉我你的想法！代码 + 数据：https://github.com/R0bk/killedbyllm，交互视图：https://r0bk.github.io/killedbyllm/。附言：我一直在纠结哪些基准测试足够重要从而纳入其中。如果你知道其他有助于回答“AI能否做X”问题的基准测试（包括那些尚未饱和的），请告诉我。

讨论总结

原帖作者分享了AI基准快速过时的数据，并认为需要更好的基准，当前AI虽然能解决一些原本以为2030年才能解决的任务，但还不能像初级人员一样被信任去做某些任务。评论者们从不同角度展开讨论，如AI与代码的集成、基准饱和的原因、对原帖数据的肯定、以类比表达对AI基准快速过时的感受、反驳原帖关于GPT - 4通过图灵测试的观点等，还有人补充了自己感兴趣的基准，提及LLMs存在的问题，以及提出关于恶意软件的LLM基准测试的疑问。

主要观点

👍 AI能解决复杂问题但难以集成到现有代码且输出有问题
- 支持理由：评论者分享在编写代码时利用AI节省时间但有很多错误的经历。
- 反对声音：无。
🔥 基准饱和可能源于特定基准训练集的创建
- 正方观点：一些基准饱和可能是创建了基准特定的训练集。
- 反方观点：不需要这么做，在已提供的400个训练任务上进行强化学习可能就足够了。
💡 否定GPT - 4是人类首次创造出能通过图灵测试的事物
- 解释：指出基本聊天机器人也有通过图灵测试的能力。
💡 LLMs应通过逻辑推理解决问题但实际存在很多问题
- 解释：很多LLMs会误认问题，针对未修改问题给出解决方案，存在推理矛盾情况，如在量水问题上答案复杂无意义。
💡 关注AI在恶意软件方面是否有基准测试
- 解释：只是单纯提出这样一个疑问。

金句与有趣评论

“😂 So a weird mix of amazing senior and first day noob.”
- 亮点：形象地描述了AI既神奇又存在问题的状态。
“🤔 我会很惊讶如果很多生成的数据没有被用来在ARC挑战中取得成功。”
- 亮点：对生成数据在ARC挑战中的作用提出自己的疑问。
“👀 Nice data. It’s interesting to see the progress in this field in just the past 2 years.”
- 亮点：肯定原帖数据并表达对AI领域进展的兴趣。
“😉 “Mr. Incredible learns the truth” vibes”
- 亮点：以诙谐的类比表达对AI基准快速过时现象的感受。
“🤨 It was definitely not the first time humanity created something that could "beat the Turing test", Basic chatbots can do it too”
- 亮点：反驳原帖关于GPT - 4的观点并给出理由。

情感分析

总体情感倾向比较中性。主要分歧点在于GPT - 4是否是人类首次创造出能通过图灵测试的事物，以及基准饱和的原因等。可能的原因是大家对AI的认知和理解程度不同，以及所关注的AI领域的具体方向有所差异。

趋势与预测

新兴话题：可能会引发对LLMs在特定领域（如恶意软件）的基准测试的探讨。
潜在影响：如果对AI基准测试进行改进和完善，可能会对AI的发展方向和评估标准产生影响，有助于提高AI在实际应用中的可靠性。

详细内容：

标题：AI 基准的快速变迁与挑战

在 Reddit 上，一则题为“Killed by LLM – I collected data on AI benchmarks we thought would last years”的帖子引发了广泛讨论。该帖获得了众多关注，评论区热闹非凡。帖子作者分享了其收集的有关 AI 基准快速过时的数据，并指出了当前面临的问题和对未来的期望。

讨论的焦点集中在多个方面。有人表示，AI 虽能解决一些原以为要到 2030 年才能解决的任务，但在某些复杂场景下仍不可靠。比如，它通常无法与现有代码集成，常存在安全漏洞或 bug，对于特别小众或复杂的问题可能会出现幻觉。但也有人认为，如果给予详细准确的描述，AI 能出色完成特定功能，极大提高工作效率，还能进行解释和教学最佳实践。

有用户分享道：“作为一名在相关领域工作的人员，我发现对于简单的应用，AI 往往表现出专家水平；但对于大型应用，就容易出问题。这让我思考是否能开发一种新的编程方式或框架，使 AI 能更有效地参与编写代码。过去 50 年我们一直在为人类编写代码优化编程语言和框架，而不是为 AI，我觉得这里面肯定有很大的潜力等待挖掘。”

还有用户提到：“我给 Claude 或 4o 一个非常详细的特定函数描述，它的表现令人难以置信。通常一两次就能搞定，每天为我节省数十小时。我作为一个被推着进入编程领域而非有编程背景的人，生产力提高了 5 倍。”

同时，也有观点认为一些基准饱和可能是创建了特定于基准的训练集，还有人认为在提供的 400 个训练任务上进行强化学习可能已经足够。

对于 AI 在编程领域的表现，大家看法不一。有人觉得它在特定情况下表现出色，有人则认为其存在诸多限制。但总体而言，大家都认为当前的基准还不能充分衡量 AI 在现实世界中的可靠性，期待未来能有更好的基准出现。

您对这个话题有什么看法呢？

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#