原贴链接

我想知道你们的使用体验,请分享一些例子,比如在哪些方面适合编码,在哪些情况下一种成功而另一种失败的情况。我发现R1在我的编码用例中相当不错。但有些人抱怨它还不够好。很多人认为R1是一个7B模型,他们从Ollama下载的,实际上这是一个基于Qwen 7B数学模型的蒸馏模型,哈哈。有些人正在使用DeepSeek v3(不点击R1按钮)。我所说的是Deepseek网站上实际的R1 + 点击R1按钮之后的情况。

讨论总结

这个讨论围绕着O1、R1和Sonnet在编码方面的应用展开。大家从自身的使用经验出发,分享了各个模型在不同场景下的表现,包括零样本场景、多轮对话、指令遵循、修复代码问题等方面,还比较了它们的成本、成果等,整体氛围偏向于理性交流,互相分享知识与见解。

主要观点

  1. 👍 R1与Sonnet组合在特定基准测试中达到新的技术水平,且成本较低
    • 支持理由:yusufgurdogan提到在aider多语言基准测试中达到64.0%的新SOTA,Recoil42补充实现成果的成本相比之前o1的SOTA结果大幅降低。
    • 反对声音:无
  2. 🔥 o1在编码测试中比R1表现好
    • 正方观点:在测试中o1打败了R1,o1曾给出17kb代码输出且只有2处错误,而让R1达到相同功能水平需要大概15次提示。
    • 反方观点:无
  3. 💡 Sonnet是开发时的首选
    • 解释:评论者sleepy_roger表示在近一个月使用R1的过程中,认为R1被过度炒作,Sonnet仍是自己进行开发时的首选。
  4. 💡 O1零次学习能力好但多轮对话表现差
    • 解释:评论者分享在编码方面使用O1、R1和Sonnet(Gemini 1206)的经验提到这一观点。
  5. 💡 R1会提出新方案而非修复问题
    • 解释:根据评论者在编码方面使用R1的经验得出。

金句与有趣评论

  1. “😂 R1 as architect with Sonnet as editor has set a new SOTA of 64.0% on the aider polyglot benchmark.”
    • 亮点:明确指出R1与Sonnet组合在特定基准测试中的成果。
  2. “🤔 In pitting them against each other, I’ve given them prompts with >100kb of code. o1 beats R1 in my tests.”
    • 亮点:给出了o1和R1对比测试的具体方式和结果。
  3. “👀 Sonnet is a beast of following instructions and coding its way out.”
    • 亮点:生动地形容了Sonnet在指令遵循和编码方面的能力。
  4. “😎 O1 -> Best zero - shot - but became stupid REALLY fast if you do "chat", so like many back and forth”
    • 亮点:形象地描述了O1在零次学习和多轮对话中的表现差异。
  5. “🤨 The hype over R1 feels very weird.”
    • 亮点:表达了对R1被过度炒作的看法。

情感分析

总体情感倾向比较中立,大家更多是理性地分享使用体验和比较不同模型的优劣。主要分歧点在于对R1的评价,部分人认为R1有优势,如能本地运行70b且API价格低廉,但也有人认为R1被过度炒作不是最佳选择。可能的原因是大家使用的场景和需求不同,导致对R1的评价产生差异。

趋势与预测

  • 新兴话题:结合不同模型(如R1与Claude)的优势进行编码工作。
  • 潜在影响:有助于开发者在编码过程中根据不同需求更灵活地选择模型,提高编码效率。

详细内容:

《O1、R1 与 Sonnet 3.5 在编程领域的热门讨论》

在 Reddit 上,一则关于“O1 vs R1 vs Sonnet 3.5 For Coding”的帖子引发了众多关注,获得了大量的点赞和众多评论。帖子的主要内容是作者想了解大家对于这三款模型在编程方面的使用体验,包括它们在哪些方面表现出色,哪些方面存在不足,并分享了自己对于 R1 在编程使用中的看法。

讨论的焦点主要集中在以下几个方面: 有人表示,使用 deepseek-r1 搭配 deepchat-chat 时,会采用特定的指令方式。 有用户提到,R1 作为架构与 Sonnet 作为编辑器在 aider 多语言基准测试中达到了新的最高水平,且成本相比之前降低了 14 倍。但也有人通过大量代码测试后发现,o1 在某些方面胜过 R1。 有人认为 o1 和 R1 在零样本方面表现出色,但 o1 在“聊天”模式下很快变得不太聪明。R1 有时会给出全新的解决方案,而非直接修复问题。Sonnet 和 Gemini 1206 都很出色,有人觉得质量上没太大差别,且 Google 的是免费的。

有人分享道:“作为一名长期从事编程工作的开发者,我在实际使用中发现,O1 在最初的表现确实出色,但随着交流的深入,它的表现逐渐不稳定。而 R1 虽然有创新能力,但在解决实际问题时有时不够直接。”还有用户提供了相关的评测链接:https://aider.chat/2025/01/24/r1-sonnet.html,进一步支持了自己的观点。

讨论中的共识在于大家都认可这三款模型在不同方面有各自的优势,但对于哪一款是最优选择存在争议。

特别有见地的观点如有人认为将不同模型结合使用,如让 R1 思考任务的解决方式,再让 Claude 以 R1 的思考为蓝图,可能会取得更好的效果。

总体而言,这场关于 O1、R1 与 Sonnet 3.5 在编程领域的讨论展现了大家对于不同模型的深入思考和多样的使用体验,为开发者们提供了丰富的参考。