原贴链接

为了年终总结,我收集了关于AI基准测试多快变得过时的数据(https://r0bk.github.io/killedbyllm/)。回顾起来很有趣:2023年:GPT - 4确实是新的突破。它不仅超越了最先进水平(SOTA)的分数,还完全使基准测试达到饱和。这是人类首次创造出能通过图灵测试的东西,形成了明显的前后分水岭。2024年:其他模型迎头赶上,进展时断时续。O1/O3利用测试时计算使数学和推理基准测试达到饱和,Sonnet 3.5/4o使一些基准测试的数值增加到饱和,并使新的视觉评估达到饱和,Llama 3/Qwen 2.5使开放权重模型全面具备竞争力。如今:我们需要更好的基准测试。我很惊讶看到一些原以为到2030年才能解决的任务现在已经过时了,但我们仍然不能信任模型去做初级人员做的相同任务。很明显我们的基准测试还不能衡量现实世界的可靠性,我希望在2025年基准测试能像模型一样取得巨大进步。如果你想贡献,请告诉我你的想法!代码 + 数据:https://github.com/R0bk/killedbyllm,交互视图:https://r0bk.github.io/killedbyllm/。附言:我一直在纠结哪些基准测试足够重要从而纳入其中。如果你知道其他有助于回答“AI能否做X”问题的基准测试(包括那些尚未饱和的),请告诉我。

讨论总结

原帖作者分享了AI基准快速过时的数据,并认为需要更好的基准,当前AI虽然能解决一些原本以为2030年才能解决的任务,但还不能像初级人员一样被信任去做某些任务。评论者们从不同角度展开讨论,如AI与代码的集成、基准饱和的原因、对原帖数据的肯定、以类比表达对AI基准快速过时的感受、反驳原帖关于GPT - 4通过图灵测试的观点等,还有人补充了自己感兴趣的基准,提及LLMs存在的问题,以及提出关于恶意软件的LLM基准测试的疑问。

主要观点

  1. 👍 AI能解决复杂问题但难以集成到现有代码且输出有问题
    • 支持理由:评论者分享在编写代码时利用AI节省时间但有很多错误的经历。
    • 反对声音:无。
  2. 🔥 基准饱和可能源于特定基准训练集的创建
    • 正方观点:一些基准饱和可能是创建了基准特定的训练集。
    • 反方观点:不需要这么做,在已提供的400个训练任务上进行强化学习可能就足够了。
  3. 💡 否定GPT - 4是人类首次创造出能通过图灵测试的事物
    • 解释:指出基本聊天机器人也有通过图灵测试的能力。
  4. 💡 LLMs应通过逻辑推理解决问题但实际存在很多问题
    • 解释:很多LLMs会误认问题,针对未修改问题给出解决方案,存在推理矛盾情况,如在量水问题上答案复杂无意义。
  5. 💡 关注AI在恶意软件方面是否有基准测试
    • 解释:只是单纯提出这样一个疑问。

金句与有趣评论

  1. “😂 So a weird mix of amazing senior and first day noob.”
    • 亮点:形象地描述了AI既神奇又存在问题的状态。
  2. “🤔 我会很惊讶如果很多生成的数据没有被用来在ARC挑战中取得成功。”
    • 亮点:对生成数据在ARC挑战中的作用提出自己的疑问。
  3. “👀 Nice data. It’s interesting to see the progress in this field in just the past 2 years.”
    • 亮点:肯定原帖数据并表达对AI领域进展的兴趣。
  4. “😉 “Mr. Incredible learns the truth” vibes”
    • 亮点:以诙谐的类比表达对AI基准快速过时现象的感受。
  5. “🤨 It was definitely not the first time humanity created something that could "beat the Turing test", Basic chatbots can do it too”
    • 亮点:反驳原帖关于GPT - 4的观点并给出理由。

情感分析

总体情感倾向比较中性。主要分歧点在于GPT - 4是否是人类首次创造出能通过图灵测试的事物,以及基准饱和的原因等。可能的原因是大家对AI的认知和理解程度不同,以及所关注的AI领域的具体方向有所差异。

趋势与预测

  • 新兴话题:可能会引发对LLMs在特定领域(如恶意软件)的基准测试的探讨。
  • 潜在影响:如果对AI基准测试进行改进和完善,可能会对AI的发展方向和评估标准产生影响,有助于提高AI在实际应用中的可靠性。

详细内容:

标题:AI 基准的快速变迁与挑战

在 Reddit 上,一则题为“Killed by LLM – I collected data on AI benchmarks we thought would last years”的帖子引发了广泛讨论。该帖获得了众多关注,评论区热闹非凡。帖子作者分享了其收集的有关 AI 基准快速过时的数据,并指出了当前面临的问题和对未来的期望。

讨论的焦点集中在多个方面。有人表示,AI 虽能解决一些原以为要到 2030 年才能解决的任务,但在某些复杂场景下仍不可靠。比如,它通常无法与现有代码集成,常存在安全漏洞或 bug,对于特别小众或复杂的问题可能会出现幻觉。但也有人认为,如果给予详细准确的描述,AI 能出色完成特定功能,极大提高工作效率,还能进行解释和教学最佳实践。

有用户分享道:“作为一名在相关领域工作的人员,我发现对于简单的应用,AI 往往表现出专家水平;但对于大型应用,就容易出问题。这让我思考是否能开发一种新的编程方式或框架,使 AI 能更有效地参与编写代码。过去 50 年我们一直在为人类编写代码优化编程语言和框架,而不是为 AI,我觉得这里面肯定有很大的潜力等待挖掘。”

还有用户提到:“我给 Claude 或 4o 一个非常详细的特定函数描述,它的表现令人难以置信。通常一两次就能搞定,每天为我节省数十小时。我作为一个被推着进入编程领域而非有编程背景的人,生产力提高了 5 倍。”

同时,也有观点认为一些基准饱和可能是创建了特定于基准的训练集,还有人认为在提供的 400 个训练任务上进行强化学习可能已经足够。

对于 AI 在编程领域的表现,大家看法不一。有人觉得它在特定情况下表现出色,有人则认为其存在诸多限制。但总体而言,大家都认为当前的基准还不能充分衡量 AI 在现实世界中的可靠性,期待未来能有更好的基准出现。

您对这个话题有什么看法呢?