最近有一些关于从R1中提取标记并将其提供给Sonnet的讨论。需要明确的是,上述结果没有使用R1的思考标记,使用思考标记似乎会产生更差的基准测试结果。o1与Sonnet配对没有比单独使用o1产生更好的结果。使用其他各种模型作为编辑器似乎并没有提高o1或R1相对于它们单独得分的成绩。Aider支持使用一对模型进行编码:一个架构(Architect)模型被要求描述如何解决编码问题,思考/推理模型通常在这个角色中表现良好;一个编辑(Editor)模型被给予架构模型的解决方案,并被要求生成特定的代码编辑指令以将这些更改应用于现有源文件。R1作为架构模型与Sonnet作为编辑模型在aider多语言基准测试中达到了64.0%的新的最先进水平(SOTA),与之前o1的SOTA结果相比,它们以低14倍的成本实现了这一目标。https://aider.chat/2025/01/24/r1 - sonnet.html
讨论总结
这是一个关于R1+Sonnet在aider多语言基准测试中达到新的最优成绩且成本是o1的1/14的讨论。评论涉及到多个方面,包括对o1价格的看法、R1和Sonnet各自的优势、Aider相关功能的疑问、特定模型组合的期待和基准测试、Gemini模型未被支持的原因、架构师/编辑流程的有效性、对北美AI的批判等,讨论热度有高有低,整体氛围较为多样化。
主要观点
- 👍 认为o1价格高性价比低
- 支持理由:o1价格为186.5美元,而R1+Sonnet达到新SOTA且成本低很多。
- 反对声音:无。
- 🔥 R1和Sonnet的测试结果合理
- 正方观点:从两者的特性来看结果合理,Sonnet编码领先,R1擅长抽象概念。
- 反方观点:无。
- 💡 希望看到特定模型组合的基准测试结果
- 解释:如R1 - Distill - Qwen - 32B+Qwen2.5 - 32B - Coder的基准测试结果。
- 💡 Gemini思考模型未被支持是因为API未发布等原因
- 解释:谷歌未发布API、有速率限制、处于实验阶段等。
- 💡 架构师/编辑工作流程对自己无效
- 解释:自己体验中架构师会编写代码,编辑模型只能应用架构师的代码。
金句与有趣评论
- “😭 o1 at $186.5 😭”
- 亮点:简洁地表达出对o1价格的不满或惊讶。
- “This makes a lot of sense, actually.”
- 亮点:对R1和Sonnet的测试结果表示认可。
- “do you know what will be better than R1+R1? its the R1²”
- 亮点:幽默地调侃模型组合。
- “这是北美AI的Theranos时刻。”
- 亮点:将北美AI类比为有欺诈问题的Theranos,表达强烈批判。
- “You start aider in the root of your git repo, /add the file you want to work on, and type /code and describe what you want.”
- 亮点:详细地阐述了Aider的使用步骤。
情感分析
总体情感倾向较为复杂。部分对R1+Sonnet的成果表示肯定和感兴趣,有积极情感;对o1价格不满则是负面情感;对北美AI持批判态度也是负面情感。主要分歧点在于对不同模型性价比、性能表现以及对AI发展现状(如北美AI)的看法不同。可能的原因是用户从不同的使用体验、经济成本、行业观察等角度出发。
趋势与预测
- 新兴话题:可能会有更多关于不同模型组合(如R1+V3等)在不同基准测试中的表现的讨论。
- 潜在影响:如果R1+Sonnet的这种优势持续被认可,可能会影响相关领域在模型选择和成本控制方面的决策,对模型开发方向和用户使用选择产生影响。
详细内容:
标题:R1+Sonnet 在 aider polyglot 基准测试中创佳绩,成本大幅降低
在 Reddit 上,一则关于“R1+Sonnet set a new SOTA on the aider polyglot benchmark, at 14X less cost compared to o1”的帖子引发了广泛关注,获得了众多点赞和大量评论。原帖主要介绍了 R1 与 Sonnet 组合在 aider polyglot 基准测试中的出色表现,其准确率达到 64.0%,且成本相较此前的 o1 大幅降低。
帖子引发的讨论方向主要集中在不同模型的组合效果、成本比较以及技术细节等方面。核心问题在于如何更好地理解和利用这些模型组合来提升性能,并探讨不同模型之间的协同工作机制。
讨论焦点与观点分析: 有人指出,如果阅读相关帖子,会发现“o1 与 Sonnet 搭配使用并没有比单独使用 o1 产生更好的结果”。还有人认为,无法对 O1 进行操作,因为 OpenAI 担心别人弄清楚相关过程。也有人提到,在这种情况下,只使用了 R1 的最终输出,而不是所有的思考标记,且当尝试使用思考标记时,得到了更差的结果。有人建议应该尝试将思考标记浓缩为仅反映在 R1 输出中的那些。
有人说 o1 售价 186.5 美元。还有人想看到推理与非推理的比较,如 R1+Sonnet 、O1+Sonnet 等。
有人认为 Sonnet 仍是编码方面的王者,但 R1 显然更擅长抽象。有人表示还没使用过 Aider,好奇它是否能自动在架构师和编辑模式之间流畅切换。
有人指出 Google 不断在 AI 工作室发布模型但未提供 API,而进行基准测试需要 API。也有人提到“gemini-2.0-flash-thinking-exp-01-21”在 API 上,但存在严重的速率限制。
有人表示建筑师/编辑工作流程对自己不起作用,建筑师总是会编写代码,而编辑模型只用于应用建筑师的代码。
有人认为新的 2.0 思考模型是目前最好的,也有人期待 R1 + V3 的结果。还有人觉得这是北美 AI 的“Theranos 时刻”,认为其被过度炒作且昂贵。
讨论中的共识在于大家都对模型的组合效果和性能提升表现出了浓厚的兴趣。一些独特的观点,如对思考标记的处理建议以及对不同模型特点的分析,丰富了讨论内容,为进一步探索模型的应用提供了新的思路。
感谢您的耐心阅读!来选个表情,或者留个评论吧!