这是来自复旦大学自然语言处理实验室的文章，由Claude 3.5 Sonnet翻译。

9月12日，OpenAI正式推出了其最新模型GPT-o1，立即在学术界和工业界引发了广泛讨论。与之前的版本GPT-4o相比，新模型在主要评估指标上显示出显著改进，声称已达到“博士级”智能水平。

然而，我们最新的研究结果给这位“AI天才”泼了一盆冷水——面对中学数学水平的“陷阱”问题时，GPT-o1遭遇了惨败：在我们最新的中学陷阱问题测试集MathTrap_Public上，调用官方GPT-o1-preview API生成的回答准确率仅为24.3%。

基于GSM8K和MATH数据集的问题，我们添加了一些“陷阱”来构建MathTrap数据集。许多这些改编的问题没有明确的答案或无法解决。只有能够同时理解原始问题和“陷阱”所涉及知识的模型才能识别矛盾并发现“陷阱”所在。

因此，**仅仅“追逐基准”以提高GSM8K和MATH上的分数不会在MathTrap上取得好成绩，**因为这些模型缺乏质疑问题给定条件的能力。

GPT-o1未能识别出MathTrap数据集中问题所包含的陷阱。GPT-o1的简化过程忽略了x=0的未定义性质，尽管它在其他区间显示了局部周期性，但从整体上不能被视为周期函数。当x=0时，函数未定义，因此如果我们假设存在一个周期T，由于-T在定义域内，周期函数需要满足f(-T+T)=f(0)=f(-T)。因为f(0)不存在，这个方程不能成立，意味着不存在周期。

为了避免评估集的污染，我们将其分为两部分：MathTrap_Public和MathTrap_Private。前者已在GitHub上开源，而MathTrap_Private仍为闭源。我们论文中的实验是在MathTrap_Private上进行的，以确保公平比较。

即使是目前最先进的模型在MathTrap数据集上也显示出显著的性能下降。例如，我们在MathTrap_Private上的实验显示，o1-preview API的测试准确率为38.0%，仅略高于GPT-4 API的36.0%。开源模型在MathTrap_Private上的表现更差，Reflection-70B的准确率为16.0%，Llama-3.1-8B为13.5%，Llama-3.1-70B为19.4%。显然，Reflection-70B在陷阱问题上的表现并没有显著提高。

有趣的是，当在网页界面上测试GPT-o1-preview时，我们发现模型生成了一个“思考”过程，而API输出不包括这个“思考”内容。如果我们认为只要“思考”过程包含对陷阱的分析就算通过，GPT-o1-preview在MathTrap_Public上的准确率可能会提高到67.7%。然而，模型显示的推理过程是否真的意味着它理解了问题中的陷阱？还是这只是基于大量数据训练的模式匹配？这种现象实际上反映了当前大型模型评估方法的局限性。

接下来，我们将深入探讨现有评估系统在评估大型模型的组合泛化能力方面的不足。结合我们的研究，我们将探讨“陷阱问题”如何更有效地揭示大型模型在复杂推理任务中的表现。

Github

Arxiv

讨论总结

本次讨论主要围绕复旦大学自然语言处理实验室的研究文章展开，文章指出OpenAI最新推出的GPT-o1模型在中学生数学“陷阱”问题上的表现不佳，准确率仅为24.3%。评论者们讨论了不同国家和地区的中学生在数学教育中的差异，特别是关于余弦函数周期计算的问题。讨论中还涉及了不同教育体系对这类问题的教授时间，以及模型在处理这类问题时的局限性。主要观点包括GPT-o1模型在中学生数学“陷阱”问题上的表现不佳，不同国家和地区的中学生在数学教育中的差异，以及模型在处理这类问题时的局限性。讨论的情感倾向较为复杂，既有对模型表现的失望，也有对教育差异的探讨和对模型改进的期待。

主要观点

👍 GPT-o1模型在中学生数学“陷阱”问题上的表现不佳，准确率仅为24.3%。
- 支持理由：研究结果显示模型在处理“陷阱”问题时表现不佳，揭示了模型在理解和识别问题陷阱方面的不足。
- 反对声音：有评论者认为模型的表现是可以理解的，因为人们在面对类似问题时通常不会预料到模型会指出问题的不周期性。
🔥 不同国家和地区的中学生在数学教育中的差异，特别是关于余弦函数周期计算的问题。
- 正方观点：中国中学生的数学教育水平较高，可能涉及更复杂的数学问题。
- 反方观点：美国中学生的数学教育通常不涉及这类复杂问题，直到高中或大学才可能接触。
💡 模型在处理这类问题时的局限性，可能只是基于大数据的模式匹配，而非真正的理解。
- 解释：有评论者认为模型在处理具体数学问题时未能拒绝前提，这是一个严重的失误，表明模型可能只是基于大数据的模式匹配，而非真正的理解。
💡 数学“陷阱”问题的解决需要对问题的条件进行质疑，而不仅仅是追求基准分数的提升。
- 解释：评论者指出，模型的目标是提供帮助，并通过强化学习从人类反馈（RLHF）中进行训练，但大多数人类评估者不太可能对指出前提错误的回答给予正面评价。
💡 通过更全面的提示或新的训练数据，可能可以改善模型的表现。
- 解释：有评论者建议，如果使用更好的提示设计，例如明确要求模型判断函数是否周期性并证明其结论，模型可能会提供更深入的讨论和分析。

金句与有趣评论

“😂 RedditDiedLongAgo：Rich kid Chinese Middle School.”
- 亮点：评论者通过幽默的方式表达了对不同教育体系的看法。
“🤔 yall_gotta_move：The original prompt is bad, and this means the flaw is not in the model’s reasoning, it’s in the trust the model places in the user.”
- 亮点：评论者指出了提示设计对模型表现的重要性。
“👀 JiminP：sinc(x) is usually defined as "sinc(x) = sin(x) / x when x != 0, 1 when x = 0", but casually (outside of classroom) when one would write "sinc(x) = sin(x) / x", then it would be assumed that sinc(0) = 1.”
- 亮点：评论者对数学定义的解释，澄清了模型的错误答案。
“👍 cddelgado：This is excellent research… and to be honest, this strikes me as something that can be overcome with either a more comprehensive prompt from OpenAI, or a new series of training data.”
- 亮点：评论者对研究表示赞赏，并提出了改进模型的建议。
“🤣 I_will_delete_myself：如果测试是在“David Beckham学位”或“性别研究”领域进行，GPT-o1模型可能会轻松达到博士水平。”
- 亮点：评论者通过讽刺的方式表达了对模型在数学问题上的失望。

情感分析

讨论的总体情感倾向较为复杂，既有对模型表现的失望，也有对教育差异的探讨和对模型改进的期待。主要分歧点在于模型在处理“陷阱”问题时的表现是否可以理解，以及模型是否只是基于大数据的模式匹配，而非真正的理解。可能的原因包括模型的提示设计不佳、训练数据的局限性以及现有评估方法的不足。

趋势与预测

新兴话题：通过更全面的提示设计和新的训练数据来改进模型的表现。
潜在影响：对模型评估方法的改进可能会影响未来模型的开发和应用，特别是在处理复杂推理任务时。

详细内容：

标题：GPT-o1 在中学数学“陷阱”问题上表现不佳，引发Reddit热议

最近，Reddit上有一个关于OpenAI最新模型GPT-o1的热门讨论。一篇来自复旦大学自然语言处理实验室的文章指出，GPT-o1在面对中学数学“陷阱”问题时表现欠佳，其准确率仅为24.3%。该帖子获得了众多关注，引发了广泛的讨论。

讨论的焦点主要集中在GPT-o1在这些“陷阱”问题上的表现以及其背后反映出的问题。有人认为，测试中学数学问题来评估LLMs的能力是否合理存在争议。比如，有用户说：“我觉得，为什么要测试LLMs是否具备解决这种问题的技能呢？这有用，显示出了智能，可能在一些并非极端的现实情况中会有作用。” 但也有人提出不同看法：“原提示不好，这意味着缺陷不在模型的推理，而在于模型对用户的信任。”

对于GPT-o1给出的答案，观点也各不相同。有用户表示：“我老实说，认为原帖中o1给出的答案没有错误。” 但也有人认为：“从技术上讲，当涉及函数相等时，x² /x 并不等于 x。原因是两个函数要相等，不仅输出必须相同，定义域也要相同。”

关于如何改进，一些用户认为这是可以克服的，比如通过更全面的提示或新的训练数据。但也有人觉得，LLMs在某些方面存在局限性，难以完全覆盖所有情况。

总的来说，这次关于GPT-o1在中学数学“陷阱”问题上的表现的讨论，充分展现了大家对LLMs能力和局限性的深入思考和激烈争论。未来，我们期待看到LLMs在处理这类复杂问题上能有更好的表现和突破。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#