原贴链接

Search - R1是DeepSeek - R1（-Zero）方法的复制品，用于训练推理和搜索（工具调用）交错的大型语言模型（LLM）。基于veRL构建。通过基于规则的结果奖励（RL），30亿参数的基础大型语言模型（包括Qwen2.5 - 3b - base和Llama3.2 - 3b - base）自行发展推理和搜索引擎调用能力。[GitHub](https://github.com/PeterGriffinJin/Search - R1/tree/main)

讨论总结

原帖介绍了Search - R1项目，它是对DeepSeek - R1(-Zero)方法的复现，用于训练推理和搜索交错的大型语言模型。评论者从多个角度进行讨论，包括DeepSeek在强化学习于模型训练的意义、Search - R1项目资源获取途径、对模型能力的期待、安卓应用相关问题、项目的评估、对项目成果展示形式的不满以及项目中的技术选择等，整体讨论氛围比较理性、客观，大家各抒己见，未出现明显的争吵。

主要观点

👍 DeepSeek展示了强化学习在模型训练中的重要性。
- 支持理由：无明确反对声音，可能基于原帖Search - R1项目复现DeepSeek - R1(-Zero)方法通过强化学习使模型获得能力的事实。
- 反对声音：无。
🔥 关注Search - R1项目的资源获取平台，询问是否有GitHub或Hugging Face相关资源。
- 正方观点：原帖未提供足够资源获取信息，所以想获取更多资源。
- 反方观点：无。
💡 期待模型能自行发展推理和搜索引擎调用能力。
- 解释：目前一些模型在使用上存在局限性，如Qwen 2.7 7B 1M需要好的系统提示，且现有模型常出现表明自己无法进行实时操作的回应，所以期待模型有这种能力。
💡 不满足于中间件形式的项目成果展示，期待看到最终可用的产品。
- 解释：认为项目不应仅展示中间成果，而应展示最终可使用的产品。
💡 认为Search - R1选择PPO而非GRPO是有趣的。
- 解释：GRPO是开源深度研究处理偏好组件的流行方式，所以对Search - R1的选择感到好奇并期待相关论文解释。

金句与有趣评论

“😂我认为DeepSeek向所有人展示了在训练模型时强化学习的重要性。”
- 亮点：明确指出DeepSeek在强化学习与模型训练关系方面的示范意义。
“🤔is there a githu or hugging face somewhere?”
- 亮点：简洁地表达对Search - R1项目资源获取途径的关注。
“👀That something I’ve been waiting for.”
- 亮点：表达出对模型能自行发展推理和搜索引擎调用能力的期待。
“😉wekede：yawn, give me a viable end product, not middleware”
- 亮点：直白地表达对项目成果展示形式的不满。
“🤓It’s interesting they chose PPO over GRPO which seems the prevalent way the various open source DeepResearch are approaching the preference component.”
- 亮点：对Search - R1技术选择提出有趣观点。

情感分析

总体情感倾向较为中立。主要分歧点在于对Search - R1项目成果展示形式的看法，有的评论者关注其技术层面，如技术选择觉得有趣并期待论文解释，而有的评论者如对中间件形式不满期待最终产品，可能的原因是不同评论者的需求和关注点不同，有的更关注技术研究本身，有的更关注实际可使用的产品。

趋势与预测

新兴话题：随着技术发展，Search - R1项目是否能有更好的成果展示形式，满足期待最终产品的用户需求。
潜在影响：如果Search - R1项目能够成功实现并推广，可能会对模型训练、机器人自动化等相关领域产生积极影响，提高模型的推理和搜索引擎调用能力等。

详细内容：

标题：首次开源的深度研究尝试引发热烈讨论

在 Reddit 上，一个题为“The first real open source DeepResearch attempt I’ve seen”的帖子引起了众多关注。该帖子主要介绍了“Search-R1”，这是对“DeepSeek-R1(-Zero)”方法用于训练推理和搜索（工具调用）交错的大语言模型的复现，基于veRL。通过基于规则的结果奖励（RL），3B 的基础大语言模型（包括 Qwen2.5-3b-base 和 Llama3.2-3b-base）能够自行发展推理和搜索引擎调用能力。此帖获得了大量的点赞和众多评论。

讨论焦点与观点分析：有人认为 deepseek 向大家展示了在训练模型时强化学习的重要性。有人询问是否有 GitHub 或 Hugging Face 相关的内容，随即有用户提供了 GitHub 链接：https://github.com/PeterGriffinJin/Search-R1/tree/main 。有人分享自己在使用 Qwen 2.7 7B 1M 时的经历，指出需要良好的系统提示，否则会得到很多“我是一个大语言模型，我无法实时……”这样的回答。同时表示一个能够主动使用工具的模型是向前迈出的很好一步，这对于机器人和物理自动化等方面都有积极意义。有人好奇 Android 是否会有能在本地运行 GGUF 模型并带有在线搜索工具的应用，也有人认为由于竞争，未来小模型在手机上的应用会变得有用，而且肯定会实现，只是不确定是否免费或采用基于令牌的收费方式。有人期待相关的论文，以便理解为何选择 PPO 而非 GRPO 来处理偏好组件。有人表示希望看到可行的最终产品，而不是中间件。

在这场讨论中，对于模型的应用前景、技术实现方式以及未来发展趋势等方面存在不同的看法，但也在强化学习的重要性等方面达成了一定的共识。不同的观点和经历分享丰富了关于这一开源深度研究尝试的讨论。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#