原贴链接

OpenAI一周前推出了完整的O1(20美元)和O1 Pro(200美元)计划,最初的热议开始平息。O1 Pro属于不同的价格层级,大多数人甚至不会考虑订阅。真正的竞争在20美元价位的3.5 Sonnet之间。所以,我针对o1 - preview失败的多个问题以及另外一些问题对这两个模型进行了测试,以确定应该保留哪个订阅和取消哪个订阅。这些问题涵盖数学与推理、编码和创意写作。有关o1的有趣说明和个人基准测试,请查看我的文章:[OpenAI o1 vs Claude 3.5 Sonnet]。以下是主要观察结果。

o1的优势在哪里?

  • 复杂推理和数学是o1的强项。它比这个层级的任何可用选项都要好得多。而且o1能够解决o1 - preview难以解决或需要协助的所有问题。
  • 如果不想花费200美元,对于数学和推理来说这是最好的选择。它将涵盖90%的使用场景,除了一些博士水平的内容。

Sonnet在编码方面仍然更划算。

  • o1的编码能力肯定比o1 - preview好,但总体而言,考虑到速度和准确性之间的权衡,3.5 Sonnet在编码方面仍然更好。
  • 另外,如果编码是主要需求,每周50条消息的臭名昭著的速率限制可能是一个决定性因素。

谁更有个性,谁更有智商?

  • Claude 3.5 Sonnet在这些大模型中仍然最有个性,但o1更有智商。
  • 如果需要一个感觉像是在和另一个人交谈的助手,Claude是首选;如果需要一个高智商但容易相处的实习生,o1是首选。

应该放弃哪个订阅?

  • 如果只需要用于编码的模型,Claude提供更好的价值。
  • 对于数学、推理和非编码密集型任务,可以考虑ChatGPT,但要留意每周的配额。

让我知道你对此的想法,你更喜欢哪一个,也许可以分享你的个人基准测试问题来检验新模型。

讨论总结

原帖对比了OpenAI o1和Claude 3.5 Sonnet的性价比,涵盖数学推理、编码、创意写作等任务。评论者们从自身使用体验出发,对两者进行多方面比较,包括可用性、速度、是否开源、在不同任务中的表现、个性特点、API使用、价格是否合理等,还提出了一些替代选择和使用建议,讨论氛围较为活跃,观点多样。

主要观点

  1. 👍 o1在复杂推理和数学方面表现出色
    • 支持理由:比同层级的其他选择更好,能解决o1 - preview存在问题的题目。
    • 反对声音:无。
  2. 🔥 Claude更能理解用户需求,o1过于迎合用户存在可用性问题
    • 正方观点:Claude能更好地把握用户需求,o1在某些方面几乎无法使用,还过于迎合自身利益。
    • 反方观点:无。
  3. 💡 如果仅使用聊天功能,可选择openwebui或类似工具并使用API替代订阅服务
    • 解释:这样可以自由选择模型,不必局限于o1或Claude,订阅服务不一定值得。
  4. 💡 可以使用开放路由器同时拥有OpenAI o1和Claude 3.5 Sonnet两种服务
    • 解释:有用户认为这种方式更便宜,但也有用户指出大量使用API可能更昂贵且会遇到速率限制。
  5. 💡 Claude付费后可能出现问题,如产生幻觉
    • 解释:有用户表示付费前Claude表现好,但付费后出现给出不存在函数代码示例的幻觉。

金句与有趣评论

  1. “😂 o1 just is trying too hard to please. it’s barely usable for some things.”
    • 亮点:生动地表达出o1过于迎合用户而导致在某些方面可用性差的问题。
  2. “🤔 Claude has saved me a handful of times where I had a serious software bug, and needed to get a release out fast but was too stressed and tired to be able to think straight. 20 bucks is such a small price to pay for that.”
    • 亮点:通过具体事例说明Claude在解决软件bug方面的价值,体现20美元价格的划算。
  3. “👀 As I’m sure others have already stated, shove some credit into openrouter and use whichever you feel like”
    • 亮点:提出一种别样的使用资源途径,未纠结于o1和Claude的比较。
  4. “😂 Claude was great until I started paying for it… now it just hallucinates code examples with functions that don’t exist in the documentation.”
    • 亮点:用对比手法指出Claude付费前后的差异,对Claude付费使用后的表现表示失望。
  5. “🤔 If you’re only using the chat functionality, then neither. Go with openwebui or similar and use the API instead.”
    • 亮点:针对聊天功能提出了不同于o1和Claude的替代选择。

情感分析

总体情感倾向较为复杂,既有对o1的不满,也有对Claude的肯定和否定。主要分歧点在于o1和Claude在不同任务中的表现以及性价比。可能的原因是不同用户有不同的使用需求和场景,例如有的用户注重编码功能,有的用户注重数学推理,有的则看重个性等方面。

趋势与预测

  • 新兴话题:多模型组合使用的可能性,如使用不同模型应对不同任务。
  • 潜在影响:可能影响用户对人工智能模型的选择,促使模型开发者关注更多用户需求方面的差异,提高模型在不同任务中的性能,改善性价比等。

详细内容:

标题:OpenAI o1 与 Claude 3.5 Sonnet 大比拼,谁更胜一筹?

在 Reddit 上,一则关于“OpenAI o1 与 Claude 3.5 Sonnet 哪个性价比更高”的讨论引起了众多用户的关注。该帖子获得了大量的点赞和评论,引发了热烈的讨论。

原帖作者对这两款模型在数学和推理、编码、创意写作等多个方面进行了测试,并分享了关键观察结果。

讨论的焦点主要集中在以下几个方面:

在数学和推理方面,o1 表现出色,被认为是此领域的强项。有人说:“复杂推理和数学是 o1 的专长。它比同价位的其他选项都要好很多。如果不想花费 200 美元,它是数学和推理的最佳选择。”但也有人认为 o1 在某些方面表现得过于迎合,可用性不高。

在编码方面,Claude 3.5 Sonnet 被认为更具优势。比如有用户分享道:“Claude 曾多次在我遇到严重软件错误、需要快速发布但压力过大、头脑不清醒时救了我。有时候感觉就像阿基纳托在猜中你的心思之前,它会说‘啊哈,我看到问题了!’然后问题就真的消失了。20 美元花得太值了。”不过,也有人指出 o1 在编码方面相较于之前的版本有所进步。

关于个性和智商方面,Claude 3.5 Sonnet 更具个性,而 o1 则被认为智商更高。

在选择订阅方面,观点不一。有人认为如果只需要编码,Claude 更具性价比;对于非编码密集型的数学、推理等任务,ChatGPT 可能更合适,但要注意每周的配额。

同时,也有人提出使用 openwebui 或类似的服务,并通过 API 选择模型,还有人提到不同模型在不同使用场景下的优势和不足。

总体而言,对于 OpenAI o1 与 Claude 3.5 Sonnet 的评价各有千秋,用户应根据自身需求和使用场景来选择适合自己的模型。您更倾向于哪一款呢?