原贴链接

我认为我们国内终于有了Claude 3.5 Sonnet这样的产品。随着一个很有深度探索（Deepseek）风格的发布，鲸兄弟（Whale bros）发布了更新后的Deepseek v3，其推理能力有显著提升。这一次，它采用了合适的MIT许可，不像最初的自定义许可模型，它是一个641GB、685b的模型，知识截止日期为2024年7月。但最大的不同是推理能力的极大提升。它是一个基础模型，但回答类似于思维链（CoT）模型的思考方式。我认为基于GRPO的强化学习（RL）与这有很大关系。原始模型与GPT - 4o相当，经过这次升级，它与Claude 3.5 Sonnet相当；尽管在某些边缘情况下你可能仍会觉得Claude更好，但差距可以忽略不计。为了了解它与Claude Sonnets相比有多好，我运行了一些提示。以下是一些观察结果：Deepseek v3 0324比以前更能理解用户意图；我想说它比Claude 3.7 Sonnet基础版在思考方面更好，3.5在这方面仍然更好（也许是最好的）。同样，在原始的代码生成质量上，它比3.7好，与3.5相当，有时甚至更好。在推理方面表现很棒，比现在所有非推理模型都要好得多。在指令遵循方面比3.7 Sonnet好，但不如3.5 Sonnet。对于现实世界任务的原始能力，3.5 >= v3 > 3.7。想要完整的分析和评论，请查看这篇博客文章：[Deepseek v3 0324：国内的Sonnet 3.5](https://composio.dev/blog/deepseek - v3 - 0324 - the - sonnet - 3 - 5 - at - home/)。如此大规模的升级却没有像原始发布时那样的热度，这很疯狂。他们没把它命名为v3.5，否则它将从市场上再夺走数十亿美元。也许是时候深度探索（Deepseek）雇佣优秀的营销人员了。我很想听听你使用新DeepSeek - V3（0324）的体验。你觉得它怎么样，你会如何将它与Claude 3.5 Sonnet进行比较呢？

讨论总结

原帖主要探讨Deepseek v3 0324模型在推理能力等方面的提升，并与Claude 3.5 Sonnet进行比较。评论中大家从不同角度进行讨论，包括模型运行的硬件条件、成本、在虚构创作方面的表现、是否需要微调、模型测试方式等，有赞同也有反对的声音，整体氛围理性且充满技术交流的氛围。

主要观点

👍 Deepseek v3 0324推理能力大幅提升，与Claude 3.5 Sonnet在不同任务方面各有优劣
- 支持理由：原帖提到在多种任务能力上的对比，如代码生成、理解用户意图等方面，部分评论者也认可在某些任务上的表现。
- 反对声音：有评论者对比较结果表示质疑，认为原帖比较不准确。
🔥 运行Claude或类似模型若要达到在家般的方便需要强大的硬件支持，如数据中心
- 正方观点：从硬件要求如功率、硬件成本等多方面阐述，如Macbook难以提供运行模型所需功率等论据。
- 反方观点：有人表示自己用1000美元组装电脑就能运行，虽然速度慢但可解决部分问题。
💡 基础模型性能好有利于结合思维链提升
- 解释：评论者以Claude 3.7到3.7 thinking的提升为例进行说明。
🤔 Deepseek v3 0324不擅长虚构创作，Claude在这方面表现更好
- 解释：评论者通过自身感受及与Claude在生成字数、写作风格等方面比较得出。
😎 Deepseek v3 (0324)推理能力提升明显，是黑马，MIT许可证增加其对构建者的吸引力
- 解释：在与Claude的比较中体现推理能力提升，MIT许可证对于大规模实验构建者更有利。

金句与有趣评论

“😂 ‘Claude at home’ yeah home, if you live in a data center 😂”
- 亮点：以幽默的方式表达运行Claude所需硬件要求之高。
“🤔 The best thing about a base model having great performance is that there’s probably more to be gained from incorporating chain of thought.”
- 亮点：阐述基础模型性能与思维链的关系。
“👀 Not good at fiction; some may like it, I do not. Claude is better (unless you are an ERPist).”
- 亮点：明确表达Deepseek v3 0324在虚构创作方面的不足并与Claude比较。
“😏 I’m running this @ ~3tokens/sec (initially) on a $1000 computer I built from used parts from eBay.”
- 亮点：表明可以用低成本硬件运行模型。
“🤨 Deepseek v3 (0324) definitely feels like a sleeper hit with how much it improves reasoning out of the box, the MIT license alone makes it more attractive for builders experimenting at scale.”
- 亮点：总结Deepseek v3 0324在推理能力提升和许可证方面的优势。

情感分析

总体情感倾向较为中立，主要分歧点在于Deepseek v3 0324模型与Claude 3.5 Sonnet的比较结果、模型的性能表现（如虚构创作方面）、运行模型的硬件和成本等方面。产生分歧的可能原因是不同用户的使用场景、需求以及对模型的期望不同。

趋势与预测

新兴话题：AI21的Jamba与Deepseek v3、Claude 3.5在多跳CoT推理和长文本用例方面的比较可能成为新兴话题。
潜在影响：对开源大型语言模型的发展可能产生积极影响，如促使模型改进在虚构创作、语境处理等方面的能力，也可能影响模型在不同硬件条件下的优化和推广策略。

详细内容：

标题：关于 Deepseek v3 0324 的热门讨论

在 Reddit 上，一篇关于 Deepseek v3 0324 的帖子引起了众多网友的热烈讨论。该帖子称终于在家里拥有了类似于 Claude 3.5 Sonnet 的模型，此次更新的 Deepseek v3 在推理能力方面有显著提升，采用了 MIT 许可证，模型大小为 641GB、685b，知识截止日期为 7 月 24 日。此帖获得了大量的关注，引发了众多精彩的讨论，点赞数和评论数众多。

讨论的焦点主要集中在以下几个方面：有人认为 Claude 在实际应用中的表现更好，尤其是在某些边缘情况。例如，有人说：“Claude 在处理虚构内容方面表现更佳，而 Deepseek v3 0324 在这方面有所不足。”但也有人指出 Deepseek v3 0324 在代码生成和推理方面表现出色，比如有用户分享道：“在原始质量的代码生成方面，它优于 3.7，与 3.5 相当，有时甚至更好。在推理方面表现出色，远超其他非推理模型。”

关于在家运行该模型的可行性，观点各异。有人认为成本过高，不具备实际操作性，比如有人说：“没有消费级产品能推理 1500GB 的模型，需要数十个 H100，成本高达数十万美元。”但也有用户通过使用二手零件成功在自己组装的电脑上运行该模型，并分享道：“我在一台 1000 美元、用 eBay 二手零件组装的电脑上以约 3 个令牌/秒（初始）的速度运行它。也许对于严肃工作来说速度太慢，但大家需要积极思考，解决问题，勇于尝试。”

对于模型的指令跟随能力，有人提出疑问：“我想知道什么样的电脑规格才能在家里运行这样一个 685B 模型的基础指令跟随任务？”

在讨论中，也有共识存在。大家普遍认为 Deepseek v3 0324 的推理能力提升是一个积极的发展，为开源大语言模型带来了新的可能。

那么，您对于 Deepseek v3 0324 又有怎样的看法和体验呢？它是否真的能在某些方面与 Claude 3.5 Sonnet 相媲美？在家运行它是否现实可行？

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#