终于有一个模型配得上自Claude 3.6 Sonnet以来所获得的热度了。Deepseek发布了一个几乎没人预料到的东西:一个在v3版本发布一个月内就与OpenAI的o1相当的推理模型,它采用MIT许可协议,成本是o1的1/20。这无疑是自GPT - 4以来最好的发布。很疯狂,普通大众似乎对此很兴奋,而大型AI实验室可能正在手忙脚乱。感觉AI世界即将加速发展。这都要归功于这个新的DeepSeek - R1模型以及他们的训练方式。论文中的一些关键细节:在v3 - base上进行纯强化学习(GRPO)以得到r1 - zero(没有蒙特卡洛树搜索或过程奖励建模);该模型使用“啊哈时刻(Aha moments)”作为关键标记,在思维链(CoT)期间反思和重新评估答案;为克服r1 - zero的可读性问题,在冷启动数据上对v3进行了监督微调(SFT);蒸馏有效,像Qwen和Llama这样在r1生成数据上训练的小模型有显著改进。以下是整体的r0管道:v3 base+RL(GRPO)→r1 - zero。r1训练管道:1. DeepSeek - V3 Base+SFT(冷启动数据)→检查点1;2. 检查点1+RL(GRPO+语言一致性)→检查点2;3. 检查点2用于生成数据(拒绝采样);4. DeepSeek - V3 Base+SFT(生成数据+其他数据)→检查点3;5. 检查点3+RL(推理+偏好奖励)→DeepSeek - R1。我们知道基准测试,但它到底有多好呢?#Deepseek r1与OpenAI o1对比。所以,为此我在复杂推理、数学、编码和创意写作问题上并排测试了r1和o1。这些是之前只有o1能解决或者都不能解决的问题。以下是我的发现:在推理方面,它比o1之前的任何先前最优(SOTA)模型都要好得多。它比o1 - preview好,但略逊于o1。这也在ARC AGI基准测试中有所体现;在数学方面也是如此;r1很棒,但o1更好;编码方面:我没怎么深入研究,但乍一看,它和o1不相上下,而且它的成本低20倍,这使它成为实际的赢家;在写作方面:这是R1领先的地方。它给人一种和早期Opus一样的感觉。它免费、审查较少、更有个性、易于引导,而且与其他模型(甚至o1 - pro)相比非常有创意。让我感兴趣的是这个模型的表达和思维轨迹多么自由,类似于人类的内心独白。也许这是因为不像美国模型那样严格的人类反馈强化学习(RLHF)。从v3通过纯强化学习就能得到r1这一事实是最令人惊讶的。如需对Deepseek r1进行深入分析、评论,请查看这篇博客文章:Notes on Deepseek r1。你对新的Deepseek r1有什么体验?你发现这个模型对你的用例有用吗?
讨论总结
[这是一个关于Deepseek r1与OpenAI o1对比的讨论。涉及二者在推理、数学、编码、写作等多方面的性能比较,还探讨了Deepseek r1的开源性带来的影响,如小模型提升机会等,同时也有对Deepseek r1在审查、安全性、性价比等方面的看法,大家的观点有褒有贬,情感倾向并不单一]
主要观点
- 👍 Deepseek r1在某些方面表现出色且性价比高
- 支持理由:如在写作方面领先,价格便宜,对于日常用户已足够使用。
- 反对声音:部分人认为在编码等方面不如o1。
- 🔥 Deepseek r1的出现对OpenAI的地位产生冲击
- 正方观点:OpenAI不再遥遥领先,Deepseek r1是LLM领域胜利。
- 反方观点:OpenAI会采取应对措施,仍具有竞争力。
- 💡 Deepseek r1的开源特性意义重大
- 解释:可用于训练小模型,对GPU资源有限者有利。
- 🤔 模型在不同任务中的表现各异
- 解释:如在数学能力对比上不同人有不同结论。
- 😎 不同模型在编码方面各有优劣
- 解释:Deepseek r1在编码方面与Claude 3.6和Gemini - 1206相比没有绝对优势。
金句与有趣评论
- “😂 除了LLM模型本身,这表明OpenAI不再那么遥遥领先了,我的意思是,OpenAI仍然有钱和热度,但一年前,没人能打败他们。”
- 亮点:形象地说明OpenAI的地位正在被撼动。
- “🤔 DarkTechnocrat:My primary use case is coding, so I can only speak to that. I haven’t found Deepseek (via Deepseek.com) to be significantly better than either Claude 3.6 or, surprisingly, Gemini - 1206.”
- 亮点:基于自身编码场景的使用体验分享。
- “👀 我在Deepseek chat上进行推理操作,它输出的质量与领先供应商相比真的让我大为惊叹。”
- 亮点:表达对Deepseek推理能力的认可。
- “😎 这是一个明显的以弱胜强的故事。”
- 亮点:用形象的说法来形容Deepseek与OpenAI的竞争。
- “🤨 我向当前免费版ChatGPT和Deepseek询问相同问题,得到的回复近乎相同,首句甚至逐字相同。”
- 亮点:揭示出二者可能存在的相似性。
情感分析
[整体情感倾向比较复杂。一方面,很多人对Deepseek r1的出现感到兴奋,认为它是一个很好的模型,在很多方面表现不错,甚至可以挑战OpenAI的地位,对其性价比、写作能力等表示认可;另一方面,也有人对Deepseek r1存在质疑,如质疑其性能是否真如宣传所说,质疑其是否存在审查、被宣传内容训练等问题。分歧点主要在于不同人对模型性能、应用场景、背后可能存在的限制等方面的不同看法]
趋势与预测
- 新兴话题:[模型安全性相关话题可能会引发后续讨论,如开源模型是否会被利用创建危险模型]
- 潜在影响:[如果Deepseek r1真的能以低成本和较好性能发展,可能会改变LLM市场格局,影响其他公司在模型开发、开源闭源策略等方面的决策]
详细内容:
《关于 Deepseek r1 的热门讨论:创新与挑战并存》
近日,Reddit 上关于 Deepseek r1 模型的讨论热度持续攀升。这一模型自发布以来便备受关注,原帖详细介绍了其性能、训练流程等方面,并与 OpenAI o1 进行了对比。该帖获得了众多点赞和大量评论,引发了关于其在不同领域表现、对行业影响等多方面的热烈讨论。
讨论焦点主要集中在以下几个方面:
在与 OpenAI o1 的对比上,有人认为 Deepseek r1 在推理和写作方面表现出色,甚至超越了 o1;但在数学和某些编码任务上,o1 仍占据优势。比如,有人测试发现,“对于推理,它比 o1 预览版要好,但略逊于 o1。在数学方面,r1 表现出色,但 o1 更优。在编码方面,虽然与 o1 相当,但因其成本低而更具实用性。在写作方面,r1 领先。”
关于对行业的影响,看法不一。有人觉得 OpenAI 不再像以前那样遥遥领先,比如“[afonsolage] 除了 LLM 模型本身,这表明 OpenAI 不再像以前那样领先于其他公司,OpenAI 仍然有钱和热度,但一年前,无人能击败他们。”也有人指出,谷歌可能不太慌张,因为其硬件和管理上下文大小的能力较强。
在个人经历和案例分享方面,有人表示在特定编码任务中,Deepseek r1 不如预期,“[DarkTechnocrat] 我最近测试了 R1 用于编码,老实说,在大肆宣传之后,我真的很失望。它与 Sonnet/4o 水平相当,但只是勉强相当,而且更不稳定。不知道我期待什么……”但也有人在特定编程语言的任务中发现了它的优势。
有趣或引发思考的观点也不少。有人认为 Deepseek r1 的开源性质可能改变行业格局,“[Glass - Garbage4818] 像 r1 这样的东西出现在世界上的另一个影响是,你可以用它的输出来训练更小的模型。”还有人对其性能提升的原因进行了猜测。
总之,关于 Deepseek r1 的讨论丰富多样,既展现了其优势和潜力,也指出了存在的不足和挑战。这一模型是否能真正改变行业格局,还需时间和更多实践来检验。
感谢您的耐心阅读!来选个表情,或者留个评论吧!