原贴链接

以严谨和科学的YouTube视频著称的AI研究员‘Ai Explained’几个月前创建了一个针对大型语言模型（LLM）时空认知能力的基准测试。该测试因被许多人认为能准确测试被测试语言模型的原始推理能力而受到欢迎：人类基准超过80%，而像GPT 4o这样的模型得分17%。如标题所示，新的Claude 3.5 Sonnet版本在排名上攀升，从27.5%提升到41.4%，接近41.7%的o1 - preview，处于误差范围内。我今天有机会亲自测试它，我很喜欢它：不必要时不会给出冗长的答案，在要求对整个文件进行重构时遇到的问题更少。在我的使用场景中，它知道何时该省力，何时该全力以赴。而且，它擅长将自然语言转换为复杂的FFmpeg命令，每次出错它都能一次修复，以前这种情况较少。同时还列出了不同模型的排名、得分、所属组织等信息。

讨论总结

帖子主要讲Claude 3.5 Sonnet在SimpleBench上的得分从27.5%提升到41.4%，并分享了使用体验。评论讨论话题多样，包括名为Ai Explained的博主身份争议，有人认为他不是研究员，也有人觉得他可被视为研究员；对Ai Explained是好的AI博主的观点有不同看法；还对Claude 3.5 Sonnet的提升、SimpleBench基准测试的意义、隐私等存在争议，整体氛围多元且争议性强。

主要观点

👍 Ai Explained不是AI研究员
- 支持理由：medialoungeguy指出他并非AI研究员，虽然喜欢其视频，但不想给他安上未要求的头衔。
- 反对声音：有人认为他与专家合作过、写过AI论文且有行业工作经历，可算研究员，也可能是业余研究员。
🔥 Ai Explained是最好的AI博主
- 正方观点：hatekhyr认为他的视频基于事实、研究并对所有模型和公司批判性思考，没有繁琐、炒作和虚假内容。
- 反方观点：olivierp9觉得他之前总是炒作AGI等内容所以不再观看。
💡 没有问题的背景下，SimpleBench的分数意义不明
- eposnix认为没有提问内容时，SimpleBench给出的数字没有意义，因为其他基准测试显示新旧版本差距不大。
💥 闭源模型Claude 3.5 Sonnet的提升幅度巨大
- 很多人认为从27.5%提升到41.4%是很大的跃升，并且好奇开源模型在该基准测试中的位置。
🤔 Simple - bench不是学术基准
- 评论者指出它不公开，由与科学无关的单人创建、评估和发布结果，不可信。

金句与有趣评论

“😂 Ai explained is NOT an AI researcher. Wtf.”
- 亮点：直接表达对Ai Explained研究员身份的否定态度，引起争议。
“🤔 Best AI youtuber by far IMO. No fuss, no hype, no bullshit. Just facts, research and critical thinking applied to ALL models and ALL companies.”
- 亮点：高度评价Ai Explained的视频风格。
“👀 I don’t understand the point of these numbers. Without the context of the questions being asked, these numbers are meaningless.”
- 亮点：对SimpleBench分数的有效性提出质疑。
“😎 That’s absurd how fast is progress!”
- 亮点：对人工智能进步速度表示惊讶。
“😏 Simple - bench是一个骗局。”
- 亮点：直接表明对Simple - bench的不信任态度。

情感分析

总体情感倾向较为复杂且有争议性。主要分歧点在于对Ai Explained身份的认定、Claude 3.5 Sonnet的提升真实性、SimpleBench基准测试的可信度等方面。原因是不同的人基于不同的知识背景、使用体验以及对相关概念的理解不同，例如对于研究员身份的判断标准、对模型性能提升的期待值、对基准测试应该具备的要素理解等。

趋势与预测

新兴话题：可能会有更多关于如何验证基准测试的公正性和科学性的讨论，以及如何确保模型测试中的隐私保护。
潜在影响：如果对基准测试的质疑声浪持续增大，可能会影响公众对相关模型性能评估的信任度，也可能促使模型开发者寻求更具公信力的评估方式。

详细内容：

标题：Claude 3.5 Sonnet 在 SimpleBench 上的显著进步引发 Reddit 热议

近日，Reddit 上一则关于 Claude 3.5 Sonnet 在 SimpleBench 上得分大幅提升的帖子引发了广泛关注。该帖子指出，更新后的 Claude 3.5 Sonnet 在 SimpleBench 上的得分从之前的 27.5%跃升至 41.4%，而此前版本的得分仅为 27.5%。此帖获得了众多用户的参与，评论数众多。

帖子引发了多个主要的讨论方向，包括对测试者身份的争议、模型进步的原因、测试的有效性以及如何将此成果应用于本地模型等。

在讨论中，观点纷呈。有人认为 Ai Explained 并非真正的 AI 研究者，只是与专家合作；也有人认为尽管他没有研究经验，但曾在 AI 行业工作过，因此算得上是有一定可信度的参与者。

对于 Claude 3.5 Sonnet 的进步，有人称赞其表现出色，如在处理 FFmpeg 命令时表现卓越，且回答更简洁高效；但也有人质疑，比如认为在没有给出提问背景的情况下，这些数字毫无意义，测试者也未充分解释新 Sonnet 大幅优于旧 Sonnet 的具体原因。

有用户分享了个人经历，如用特定问题测试新 Sonnet 等。还有人提出有趣的观点，认为这些模型如果提示正确就能力惊人，但其缺乏明确的重点关注方向。

关于测试本身，有人认为 SimpleBench 并非学术基准，不可信；但也有人认为只要展示由专家评估，就能保证一定的可靠性。

总体而言，此次 Claude 3.5 Sonnet 在 SimpleBench 上的进步引发了众多争议和思考，未来其发展和应用仍有待持续观察和探讨。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#