原贴链接

所以，为了更好地理解基准测试的情况，部分原因是为了将我自己的一些基准测试构建到我正在开发的工具中，据我所知，随着人工智能在现有基准测试中获得更高的分数，新的更难的基准测试被提出来对其进行测试。这是有道理的，但看看像前沿数学（FrontierMath）和通用问答（GPQA）这样的测试，虽然有意义，但它们测试的是大型语言模型（LLM）做大多数人做不到的事情的能力。由于我们目前还没有被能为人们做所有工作的高质量人工智能代理所淹没，我有兴趣了解哪些基准测试正在评估大型语言模型在它们薄弱但人类擅长的领域的表现。那么，与人类相比，人工智能的弱点是什么，哪些基准测试正在评估这些弱点呢？我已经看到了简单基准（SimpleBench），我很喜欢它，因为它提供了基准测试的人类基线（83.7%），所有被测试的大型语言模型都远低于这个数值，01预览版（01 preview）以41.7%领先，3.5 Sonnet new紧随其后。还有其他的吗？有没有好的代理任务基准测试，有没有能告诉我们人类得分情况的测试，这样我们就能看到人工智能的弱点在哪里，以及这些弱点是否正在改善。知道一个大型语言模型从小学数学进步到本科水平、研究生水平，再到成为世界上最擅长回答数学问题的模型是很棒的，但如果它仍然不能执行我们可能想要交给代理的相当简单的任务，那对我来说也没有帮助。我经常听到人们说大型语言模型的弱点是推理、规划、长期任务等。我知道有很多推理基准测试，但其他这些领域呢？了解你们认为已经存在的能衡量这些类型事物的基准测试，以及你们认为当前基准测试没有衡量或者无法衡量的内容会很棒。

讨论总结

主题是探讨人工智能与人类相比在哪些方面存在弱点以及有哪些基准测试可以衡量这些方面。在ARC挑战方面，有人指出其中有人类易做而AI难做的例子，虽结果已达人类平均水平但现成AI表现不佳；关于LLMs，在以字符为操作层面的任务上存在弱点，不过对于这能否作为基准存在争议；还提出凯撒密码加密值大于7时目前无模型能成功解码且可能无相关基准测试。

主要观点

👍 ARC挑战存在人类易做而AI难做的例子
- 支持理由：评论者指出其中有这样的示例存在。
- 反对声音：无。
🔥 LLMs在以字符为操作层面的任务上存在弱点
- 正方观点：LLMs按序列预测标记，不考虑字符间关系等。
- 反方观点：有人认为是训练不够而非标记化的问题。
💡 凯撒密码加密值大于7时目前无模型能成功解码
- 支持理由：目前还没模型能做到。
- 反对声音：无。
😎 现成的AI在ARC挑战中表现不好
- 支持理由：从结果看现成AI表现不佳。
- 反对声音：无。
🤔 对于以字符为操作层面的任务能否作为基准存在争议
- 正方观点：LLMs在这方面表现差所以可作基准。
- 反方观点：有人认为不是特别有用。

金句与有趣评论

“😂 hiitkid: not an agentic task, but ARC challenge has examples that are somewhat trivial for a human but not for AI”
- 亮点：直接指出ARC挑战存在人类与AI能力差异的例子。
“🤔 grady_vuckovic: Basically any tasks that operate at a per - character level instead of a per - word level. For example if you spell out a word using a unique design of ASCII art, most LLMs won’t know what the heck they’re even looking at.”
- 亮点：具体举例说明LLMs在字符任务上的弱点。
“👀 Pleasant - PolarBear：Caesar ciphers with a cipher above 7.”
- 亮点：提出凯撒密码加密值大于7这一可能的AI弱点情况。
“😎 Xenolith_l: Saw on twitter that results now meet the human average https://x.com/akyurekekin/status/1855680785715478546?t=T8lmOOvW75nkENsShwMdyA&s=19"
- 亮点：提供ARC挑战结果达到人类平均水平的信息来源。
“💡 Mysterious - Rent7233: True, but off the shelf AIs struggle with it badly.”
- 亮点：强调现成AI在ARC挑战中的不佳表现。

情感分析

总体情感倾向是比较理性探讨，主要分歧点在于LLMs在字符任务上表现差的原因以及以字符任务作为基准是否有用，可能的原因是大家对LLMs的工作原理和基准测试的定义与意义理解不同。

趋势与预测

新兴话题：是否可以针对凯撒密码加密值大于7的情况开发基准测试。
潜在影响：如果能准确找到更多AI与人类能力对比的基准测试，可能有助于更精准地评估AI发展水平并推动其改进方向，也可能影响人类对自身能力优势的认知。

详细内容：

《探讨人类与 AI 能力差异的基准测试》

近日，Reddit 上有一个关于基准测试的热门讨论引起了大家的关注。原帖提出了在 AI 在现有基准测试中得分不断提高的情况下，希望找到能评估 LLM 在其薄弱领域、而人类擅长领域表现的基准测试。该帖子获得了众多的点赞和评论。

讨论的焦点主要集中在 AI 与人类能力的差异以及相关的基准测试。有人指出，ARC 挑战中的某些例子对人类来说较为简单，但对 AI 却并非如此。还有人在推特上看到相关结果已达到人类平均水平的信息。

关于 AI 的弱点，有人认为是推理、规划、长期任务等。有观点认为基本上任何在字符层面而非单词层面操作的任务，比如用独特的 ASCII 艺术拼写单词，大多 LLM 都难以应对。但也有人提出反对意见，认为这种类比过于牵强。比如有人说：“我们作为人类，在听到或看到一个单词时，其实也不是读/听字母。神经元保存的是整个单词而不是字母。（最新研究）我们只是在拼写单词方面训练得很好……大多数人在单词的字母书写上会犯很多错误。我认为 LLM 只是在这方面训练不够。”还有人认为这并非是 tokenization 的问题，而是训练不足。

有人提到 Caesar 密码超过 7 的情况，但目前似乎还没有相关的基准测试。

讨论中的共识在于都在积极思考如何更准确地评估 AI 与人类能力的差异。特别有见地的观点是指出了一些新的可能的评估方向和任务类型，丰富了大家对于基准测试的思考。

总的来说，这场讨论让我们对 AI 与人类能力的评估有了更深入的思考，也期待未来能有更科学有效的基准测试出现。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#