原贴链接

Anthropic刚刚推出了一个改变AI问题解决方式的工具：Claude的新“think”工具就像一个思维草稿本，能让AI在任务中途暂停以分析数据、验证策略并避免代价高昂的错误。

他们的基准测试的主要结果： ✅ 在航空客服任务中准确率提升54% ✅ 在多步骤工作流中一致性提高20%以上 ✅ 达到最先进的编码性能（SWE - Bench分数为0.623）

我制作了一个视频解析展示它的工作原理以及实现该工具的“Ollama示例代码”。小提示：将其与特定领域的提示（如航空政策示例）搭配使用以获得最大收益。

这真的是一个突破，还是只是炒作呢？🤔早期测试显示有很大收益，但我很好奇：

对于简单任务是否大材小用？（Anthropic承认对于一次性工具调用它没有用）
有人在本地进行过基准测试吗？分享你们的结果——它在复杂工作流中真的能减少错误吗？
OpenAI或其他公司会效仿吗？（毕竟，它只是一个JSON工具定义……）

在下面分享你们的看法！🚀

讨论总结

该讨论源于帖子介绍Claude的“think”工具提升准确性，大家针对这个工具进行了多方面探讨。整体氛围既有质疑声，也有表示肯定的声音。其中主要涉及工具的创新性、作用机制、是否真的有效等方面的讨论。

主要观点

👍 认可视频解析的意义、节省行业成本且改进核心产品
- 支持理由：[评论者肯定发布者制作视频解析的积极意义]
- 反对声音：[无]
🔥 质疑“think”工具创新性，认为是函数调用中的常见推理包装
- 正方观点：[工具功能与函数调用中的推理类似，不需要特殊训练]
- 反方观点：[有人认为这是Anthropic训练的成果，具有创新性]
💡 认为“think”工具效果变好是因为增加了反思训练
- [解释：已存在很久，现在工具效果好可能是加入反思训练的结果]
💡 对“think”工具不一直开启表示疑惑
- [解释：认为Claude可自行判断是否使用，一直开启坏处不大]
💡 质疑新工具的突破性，认为其功能与LLM函数调用类似
- [解释：觉得这个工具没有独特创新之处]

金句与有趣评论

“😂 It’s just the same reasoning thing wrapped inside Function Calling so you don’t need train model to output thinking and answer in 1 reply, but instead you have 2 with similar result.”
- 亮点：[直接指出“think”工具与函数调用推理类似，简洁地表达质疑]
“🤔 It’s funny because they had for a very long time.”
- 亮点：[提及存在已久，为后续关于工具改进原因的讨论提供依据]
“👀 他们制作了一个视频解析，这是无可争议的，他们刚刚拯救了这个行业，每年约40%，同时改进了核心产品，哇!”
- 亮点：[高度赞扬视频解析的积极意义]
“😉 that’s what i thought LLM function calling was for, what’s the breakthrough?”
- 亮点：[对工具的突破性提出质疑]
“🤔 Why isn’t the "think" tool always on?”
- 亮点：[对工具使用机制提出疑问]

情感分析

总体情感倾向较为复杂，既有积极的认可（如对视频解析的赞扬），也有较多质疑（针对“think”工具的创新性等）。主要分歧点在于“think”工具是否具有创新性以及其作用机制。可能的原因是大家对AI工具的理解和期望不同，部分人从技术层面认为其没有新突破，而部分人可能看到了工具带来的积极影响。

趋势与预测

新兴话题：[关于模型未来是否都会朝着加入反思训练方向发展]
潜在影响：[如果“think”工具被广泛认为有效，可能会促使更多AI模型开发类似功能以提升准确性]

详细内容：

标题：Anthropic 的“Think 工具”引发 Reddit 热议，是突破还是炒作？

Anthropic 推出了被视为 AI 问题解决“变革者”的 Claude 新“Think 工具”，此消息在 Reddit 上引发了热烈讨论。该帖子介绍了其在航空客户服务任务中准确率提升 54%、多步骤工作流程一致性增加 20%以上以及达到先进的编码性能等关键成果，并提供了一个视频解析及 Ollama 示例代码的链接。此帖获得了众多关注，引发了大家的热烈讨论。

讨论的焦点主要集中在以下几个方面：有人认为这只是将现有功能重新包装，比如“[Pristine_Income9554] 它就像是包裹在函数调用中的相同推理事物，所以你不需要训练模型在一次回复中输出思考和答案，而是分两次得到类似结果。” 有人质疑其实际作用，如“[Chromix_] 也许我在这里忽略了什么。‘思考’工具调用除了将‘思考’保留在上下文中之外什么都不做，任何常规输出都是如此。使用迭代，模型被要求继续。没有对思想的递归细化或其他任何东西。” 也有人觉得它具有创新性，比如“[Antique_Handle_9123] 是的，这确实是全新的，而且 Anthropic 为此进行了训练。” 还有人从不同角度进行分析，“[tindalos] 我还没有深入研究这个。但我认为思考工具的暂停使其暂时停止生成，并审查其编写的内容（可能还有提示）以重新调整上下文。”

对于是否是真正的突破，大家观点不一。有人觉得并非如此，“[Dyonizius] 我原以为 LLM 函数调用就是为此服务的，突破在哪里？这就像 Python 程序员发现对象是个东西。”但也有人称赞其效果显著，“[Mobile_Syllabub_8446] 他们做了一个视频解析，这无可争议，他们每年为行业节省了约 40%，同时改进了核心产品，哇！”有人分享个人经历，如“[Famous-Appointment-8] 哇，不错，感谢代码分享。我尝试后会汇报。”

目前讨论中的共识尚未明确，但各种独特观点的碰撞让讨论更加丰富和深入。究竟这一工具是真正的突破还是仅仅是炒作，仍有待进一步观察和探讨。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#