我们发现,与从“O3 - mini - Low”到“O3 - mini - Medium”的收益相比,从“O3 - mini - Medium”到“O3 - mini - High”全面呈现收益递减。但在编码类别除外,其趋势完全相反。即使是纯编码基准的LiveCodeBench和Aider也显示出相同的收益递减模式。那么,LiveBench是否可能出错了呢?我们如何解释这种与其他所有基准背道而驰的异常跃升呢?
讨论总结
原帖对O3 - mini - high的LiveBench编码分数存疑,因为从“O3 - mini - Medium”到“O3 - mini - High”整体收益递减,但编码类别却相反。评论者们从多个角度展开讨论,包括编码能力的不同类型表现、模型完成代码的难易程度、基准测试可能存在的错误、模型的调整、不同模型间的关系以及特定模型在推理方面的问题等。部分人对原帖观点表示赞同,也有人提出自己的见解和质疑,整体讨论氛围较为理性且涉及多个相关话题。
主要观点
- 👍 在LiveBench编码分数方面,不同类型的编码能力有不同表现
- 支持理由:通过分析“LCB_generation”和“coding_completion”类别分数得出
- 反对声音:无
- 🔥 LiveBench可能在编码完成度上出错,数据跳跃不合常理
- 正方观点:与其他基准测试结果对比,编码类别的趋势反常
- 反方观点:有人认为可能是模型本身特性导致
- 💡 模型为不同角色而调整
- 解释:几个月内可能通过特定路由器对用户隐藏相关情况,AI根据提示选择模型,模型再选专家
- 💡 o3 - mini - high在推理问题上表现不佳,即便答案正确但推理存在问题
- 解释:通过具体推理问题及不同模型回答情况分析得出
- 💡 O3 - mini专为编码训练,所以编码分数有跳跃
- 支持理由:认为其专门为编码训练所以分数有提升
- 反对声音:有人质疑高版本是否为不同模型且其他测试结果未体现相同跳跃
金句与有趣评论
- “😂 Maybe its why coders are socially awkward, and non - geeks can’t code?”
- 亮点:以一种幽默诙谐的方式调侃编码类别数据异常与程序员社交属性的关系
- “🤔 They probably made an error somewhere - the coding_completion jump is implausible.”
- 亮点:直接指出LiveBench可能存在错误,编码完成度跳跃不合理
- “👀 The models are being tuned for different roles”
- 亮点:提出模型调整的观点,为讨论提供新角度
- “🤔 One can pump reasoning benchmark to 90% but o3 - mini - high still reasons like this:”
- 亮点:通过具体数据说明o3 - mini - high在推理方面存在的问题
- “👍 agree. It doesnt feel that much better then Sonnet 3.5”
- 亮点:赞同原帖对O3 - mini - high编码分数存疑的观点并给出对比感受
情感分析
总体情感倾向较为理性客观。主要分歧点在于对O3 - mini - high编码分数异常的原因解释,一部分人认为是LiveBench出错,另一部分人从模型本身特性(如专门为编码训练)去解释。可能的原因是大家基于不同的知识背景和对模型的理解角度不同。
趋势与预测
- 新兴话题:O3 - mini在不同平台(如[web.lmarena.ai])上的版本及表现差异可能引发后续讨论。
- 潜在影响:如果O3 - mini等模型在编码能力、推理能力等方面存在的问题属实,可能会影响其在相关领域(如编程辅助、智能问答等)的应用和市场竞争地位。
详细内容:
标题:关于 O3-mini-High LiveBench 编码得分的热门讨论
在 Reddit 上,一个题为“O3-mini-High LiveBench 编码得分似乎有问题”的帖子引发了热烈关注。该帖子指出,从“O3-mini-Medium”到“O3-mini-High”,在大部分方面收益递减,但编码类别却趋势完全相反。此帖获得了众多点赞和大量评论,大家主要围绕以下几个方面展开了讨论。
有人指出,如果查看扩展的编码类别分数,会发现“LCB_generation”类别在“Low”到“Medium”变化不大,而“coding_completion”则显著降低,这表明完成现有代码远比编写全新代码困难,且这种情况在原始 o1 系列中也有出现。
有人疑惑为何在 Aider 基准测试中没有看到从“Medium”到“High”的相同或相近的跃升。
有人提到 Aider 的基准测试倾向于 o1,因为其代码编辑基准测试有特定的评估方式。
还有人认为 R1 在生成方面的得分几乎相同,可能是测试中的瓶颈或已达到一定饱和,或许应重新考虑权重,更重视完成部分。
同时,对于一些推理问题,大家也各抒己见。有人举例称,对于“如果我有 3 个姐妹和 1 个兄弟,我的兄弟有几个姐妹?”这个问题,O3-mini-High 的回答和推理并不令人满意。有人认为如果不明确提问者身份,这个问题就是无意义的;也有人指出经典的语言模型可能这样表现可以接受,但推理语言模型应能更好地解决此类问题。还有人分享了不同情况下 O3-mini-High 对这个问题的回答和处理方式。
总之,关于 O3-mini-High LiveBench 编码得分的讨论充满了争议和思考,大家从不同角度探讨了其中的异常和可能的原因。
感谢您的耐心阅读!来选个表情,或者留个评论吧!