原贴链接

使用 C++ 对 o1 mini 进行了实验。只提供了标题、问题描述、示例、约束条件和初始代码,没有任何提示。对于失败的提交,我会将错误和测试用例反馈给模型,并要求其自行修正,给予 3-4 次尝试机会。所有问题在 o1 发布时最多不超过 14 天,因此应该几乎没有污染。

OpenAI o1 解决了 22 个问题中的 21 个。我认为这是一个比许多人意识到的更大的发布。

image

讨论总结

本次讨论主要围绕OpenAI o1模型在解决LeetCode问题上的表现展开。参与者们对o1模型的性能表示惊讶,认为其在解决编程问题上表现出色,甚至超过了其他知名模型如GPT-4o和Claude。讨论中涉及了模型的实际应用、原创性、训练材料以及与其他模型的比较。部分评论者对o1模型的实际应用效果表示质疑,认为其在实际项目中的表现不如在LeetCode问题上的表现。总体而言,讨论氛围积极,参与者们对o1模型的未来潜力表示期待。

主要观点

  1. 👍 OpenAI o1在解决LeetCode问题上的表现出色
    • 支持理由:o1模型解决了21个问题中的22个,显示出其强大的编程能力。
    • 反对声音:部分评论者认为其在实际项目中的表现不如预期。
  2. 🔥 o1模型可能在训练过程中接触过LeetCode问题
    • 正方观点:有评论者怀疑o1模型的训练材料中包含了LeetCode问题。
    • 反方观点:其他评论者认为o1在解决未见过的LeetCode问题上表现出色。
  3. 💡 o1模型在样本效率上远超之前的机器学习系统
    • 解释:评论者指出o1模型在训练样本数量上的显著优势。
  4. 👀 o1模型在实际项目中的表现不如预期
    • 解释:有评论者分享了在项目中使用o1模型时的失败经历。
  5. 🚀 未来可以通过输入大量LeetCode问题来训练模型
    • 解释:评论者设想通过这种方式可以替代高薪程序员的职位,节省成本。

金句与有趣评论

  1. “😂 This is actually far more impressive than that idiot hyping Claude for solving 600 leetcode questions or something like that.”
    • 亮点:对比了OpenAI o1与Claude在解决LeetCode问题上的表现,突出了o1的强大能力。
  2. “🤔 I think if the older 4o model is only getting half the accuracy even in 4-5 tries, then these questions can be considered to be having novel enough scenarios.”
    • 亮点:通过对比4o模型的表现,强调了LeetCode问题的新颖性。
  3. “👀 so next time you have actual scaling coding problem, you’d just feed it top 50~100 leetcode questions then prompt it to implement appropriate algo for my use case and bam, saved yourself from hiring 200k/yr programmer.”
    • 亮点:设想了通过训练模型来替代高薪程序员的可能性,具有前瞻性。

情感分析

讨论的总体情感倾向积极,大多数评论者对OpenAI o1的表现表示赞赏和惊讶。然而,也有部分评论者对o1模型的实际应用效果表示质疑,认为其在实际项目中的表现不如在LeetCode问题上的表现。主要分歧点在于模型在实际应用中的实用性,以及其是否在训练过程中接触过LeetCode问题。

趋势与预测

  • 新兴话题:未来可能会出现更多关于如何通过训练模型来替代高薪程序员的讨论。
  • 潜在影响:OpenAI o1在解决LeetCode问题上的表现可能会引发对编程教育和工作方式的重新思考,推动人工智能在编程领域的进一步应用。

详细内容:

标题:OpenAI o1 在 LeetCode 问题上的出色表现引发热烈讨论

近日,Reddit 上一则关于 OpenAI o1 与 LeetCode 问题的帖子引起了广泛关注。该帖子介绍了使用 o1 mini 进行 C++实验的情况,在仅提供标题、问题描述、示例、约束和初始代码且无任何提示的条件下,OpenAI o1 成功解决了 22 个问题中的 21 个,帖子认为这是一次重大的突破。此帖获得了众多点赞和大量评论。

讨论焦点与观点分析: 有人指出这与 o1 在 Codeforces 上的良好表现相符。还有人表示 60%能在首次尝试时通过。有人好奇 GPT4o 面对这些问题的表现,也有人回应尚未对 GPT-4o 进行相同问题的测试,但根据以往经验,GPT-4o 在 4 - 5 次尝试中可能能解决约 30 - 40%的 LeetCode 问题。

有人称 o1 模型是唯一能解决他们给出的特定编码问题的模型,感觉是唯一能在训练数据不丰富的情况下推断知识的模型。有人提到 o1 预览版能提供科学论文的有效链接和 DOI,甚至能讲述论文中图的内容。还有人分享自己的经历,o1-preview 为其提供了约 8 个已发表的学术期刊和书籍参考文献,并完美实现了所要求的现代空间查询算法。

有人感叹即便 o1 表现出色,自己在求职面试中仍需在白板上解决难题。有人希望这种情况能改变,不再要求面试者这样做,也有人质疑在白板上如何作弊。

有人询问这些测试场景是否为全新的,认为如果旧的 4o 模型准确率只有一半,那么这些问题可视为有足够的新颖性。

有人好奇 Claude 3.5 的表现,有人回复 Claude 在竞争编程方面表现不佳。有人对 o1 的表现感到惊讶,也有人指出在实际项目中使用时效果不如预期。

有人认为对于推理重要且提示大小较小的任务,新的 O1-preview/mini 模型是一大进步,但对于大型编码项目可能效果不佳。甚至有人担心如果 O1 有更大的令牌上下文窗口,可能会取代部分开发者的工作。

有人认为 o1 的表现比为 Claude 吹嘘能解决 600 个 LeetCode 问题更令人印象深刻,因为 o1 解决的是新问题。也有人质疑 o1 是否未经过 LeetCode 问题的训练,对此有人回应测试的正是其对未见过的问题的泛化能力。

有人提出下次遇到实际的编码问题,可让模型基于 LeetCode 问题来解决,以节省聘请高薪程序员的费用。

此次讨论展现了大家对 OpenAI o1 模型在 LeetCode 问题上表现的高度关注,以及对其在实际应用中的各种思考和展望。