原贴链接

终于有一个模型配得上自Claude 3.6 Sonnet以来所获得的热度了。Deepseek发布了一个几乎没人预料到的东西：一个在v3版本发布一个月内就与OpenAI的o1相当的推理模型，它采用MIT许可协议，成本是o1的1/20。这无疑是自GPT - 4以来最好的发布。很疯狂，普通大众似乎对此很兴奋，而大型AI实验室可能正在手忙脚乱。感觉AI世界即将加速发展。这都要归功于这个新的DeepSeek - R1模型以及他们的训练方式。论文中的一些关键细节：在v3 - base上进行纯强化学习（GRPO）以得到r1 - zero（没有蒙特卡洛树搜索或过程奖励建模）；该模型使用“啊哈时刻（Aha moments）”作为关键标记，在思维链（CoT）期间反思和重新评估答案；为克服r1 - zero的可读性问题，在冷启动数据上对v3进行了监督微调（SFT）；蒸馏有效，像Qwen和Llama这样在r1生成数据上训练的小模型有显著改进。以下是整体的r0管道：v3 base+RL（GRPO）→r1 - zero。r1训练管道：1. DeepSeek - V3 Base+SFT（冷启动数据）→检查点1；2. 检查点1+RL（GRPO+语言一致性）→检查点2；3. 检查点2用于生成数据（拒绝采样）；4. DeepSeek - V3 Base+SFT（生成数据+其他数据）→检查点3；5. 检查点3+RL（推理+偏好奖励）→DeepSeek - R1。我们知道基准测试，但它到底有多好呢？#Deepseek r1与OpenAI o1对比。所以，为此我在复杂推理、数学、编码和创意写作问题上并排测试了r1和o1。这些是之前只有o1能解决或者都不能解决的问题。以下是我的发现：在推理方面，它比o1之前的任何先前最优（SOTA）模型都要好得多。它比o1 - preview好，但略逊于o1。这也在ARC AGI基准测试中有所体现；在数学方面也是如此；r1很棒，但o1更好；编码方面：我没怎么深入研究，但乍一看，它和o1不相上下，而且它的成本低20倍，这使它成为实际的赢家；在写作方面：这是R1领先的地方。它给人一种和早期Opus一样的感觉。它免费、审查较少、更有个性、易于引导，而且与其他模型（甚至o1 - pro）相比非常有创意。让我感兴趣的是这个模型的表达和思维轨迹多么自由，类似于人类的内心独白。也许这是因为不像美国模型那样严格的人类反馈强化学习（RLHF）。从v3通过纯强化学习就能得到r1这一事实是最令人惊讶的。如需对Deepseek r1进行深入分析、评论，请查看这篇博客文章：Notes on Deepseek r1。你对新的Deepseek r1有什么体验？你发现这个模型对你的用例有用吗？

讨论总结

[这是一个关于Deepseek r1与OpenAI o1对比的讨论。涉及二者在推理、数学、编码、写作等多方面的性能比较，还探讨了Deepseek r1的开源性带来的影响，如小模型提升机会等，同时也有对Deepseek r1在审查、安全性、性价比等方面的看法，大家的观点有褒有贬，情感倾向并不单一]

主要观点

👍 Deepseek r1在某些方面表现出色且性价比高
- 支持理由：如在写作方面领先，价格便宜，对于日常用户已足够使用。
- 反对声音：部分人认为在编码等方面不如o1。
🔥 Deepseek r1的出现对OpenAI的地位产生冲击
- 正方观点：OpenAI不再遥遥领先，Deepseek r1是LLM领域胜利。
- 反方观点：OpenAI会采取应对措施，仍具有竞争力。
💡 Deepseek r1的开源特性意义重大
- 解释：可用于训练小模型，对GPU资源有限者有利。
🤔 模型在不同任务中的表现各异
- 解释：如在数学能力对比上不同人有不同结论。
😎 不同模型在编码方面各有优劣
- 解释：Deepseek r1在编码方面与Claude 3.6和Gemini - 1206相比没有绝对优势。

金句与有趣评论

“😂 除了LLM模型本身，这表明OpenAI不再那么遥遥领先了，我的意思是，OpenAI仍然有钱和热度，但一年前，没人能打败他们。”
- 亮点：形象地说明OpenAI的地位正在被撼动。
“🤔 DarkTechnocrat：My primary use case is coding, so I can only speak to that. I haven’t found Deepseek (via Deepseek.com) to be significantly better than either Claude 3.6 or, surprisingly, Gemini - 1206.”
- 亮点：基于自身编码场景的使用体验分享。
“👀 我在Deepseek chat上进行推理操作，它输出的质量与领先供应商相比真的让我大为惊叹。”
- 亮点：表达对Deepseek推理能力的认可。
“😎 这是一个明显的以弱胜强的故事。”
- 亮点：用形象的说法来形容Deepseek与OpenAI的竞争。
“🤨 我向当前免费版ChatGPT和Deepseek询问相同问题，得到的回复近乎相同，首句甚至逐字相同。”
- 亮点：揭示出二者可能存在的相似性。

情感分析

[整体情感倾向比较复杂。一方面，很多人对Deepseek r1的出现感到兴奋，认为它是一个很好的模型，在很多方面表现不错，甚至可以挑战OpenAI的地位，对其性价比、写作能力等表示认可；另一方面，也有人对Deepseek r1存在质疑，如质疑其性能是否真如宣传所说，质疑其是否存在审查、被宣传内容训练等问题。分歧点主要在于不同人对模型性能、应用场景、背后可能存在的限制等方面的不同看法]

趋势与预测

新兴话题：[模型安全性相关话题可能会引发后续讨论，如开源模型是否会被利用创建危险模型]
潜在影响：[如果Deepseek r1真的能以低成本和较好性能发展，可能会改变LLM市场格局，影响其他公司在模型开发、开源闭源策略等方面的决策]

详细内容：

《关于 Deepseek r1 的热门讨论：创新与挑战并存》

近日，Reddit 上关于 Deepseek r1 模型的讨论热度持续攀升。这一模型自发布以来便备受关注，原帖详细介绍了其性能、训练流程等方面，并与 OpenAI o1 进行了对比。该帖获得了众多点赞和大量评论，引发了关于其在不同领域表现、对行业影响等多方面的热烈讨论。

讨论焦点主要集中在以下几个方面：

在与 OpenAI o1 的对比上，有人认为 Deepseek r1 在推理和写作方面表现出色，甚至超越了 o1；但在数学和某些编码任务上，o1 仍占据优势。比如，有人测试发现，“对于推理，它比 o1 预览版要好，但略逊于 o1。在数学方面，r1 表现出色，但 o1 更优。在编码方面，虽然与 o1 相当，但因其成本低而更具实用性。在写作方面，r1 领先。”

关于对行业的影响，看法不一。有人觉得 OpenAI 不再像以前那样遥遥领先，比如“[afonsolage] 除了 LLM 模型本身，这表明 OpenAI 不再像以前那样领先于其他公司，OpenAI 仍然有钱和热度，但一年前，无人能击败他们。”也有人指出，谷歌可能不太慌张，因为其硬件和管理上下文大小的能力较强。

在个人经历和案例分享方面，有人表示在特定编码任务中，Deepseek r1 不如预期，“[DarkTechnocrat] 我最近测试了 R1 用于编码，老实说，在大肆宣传之后，我真的很失望。它与 Sonnet/4o 水平相当，但只是勉强相当，而且更不稳定。不知道我期待什么……”但也有人在特定编程语言的任务中发现了它的优势。

有趣或引发思考的观点也不少。有人认为 Deepseek r1 的开源性质可能改变行业格局，“[Glass - Garbage4818] 像 r1 这样的东西出现在世界上的另一个影响是，你可以用它的输出来训练更小的模型。”还有人对其性能提升的原因进行了猜测。

总之，关于 Deepseek r1 的讨论丰富多样，既展现了其优势和潜力，也指出了存在的不足和挑战。这一模型是否能真正改变行业格局，还需时间和更多实践来检验。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#