我认为我们国内终于有了Claude 3.5 Sonnet这样的产品。随着一个很有深度探索(Deepseek)风格的发布,鲸兄弟(Whale bros)发布了更新后的Deepseek v3,其推理能力有显著提升。这一次,它采用了合适的MIT许可,不像最初的自定义许可模型,它是一个641GB、685b的模型,知识截止日期为2024年7月。但最大的不同是推理能力的极大提升。它是一个基础模型,但回答类似于思维链(CoT)模型的思考方式。我认为基于GRPO的强化学习(RL)与这有很大关系。原始模型与GPT - 4o相当,经过这次升级,它与Claude 3.5 Sonnet相当;尽管在某些边缘情况下你可能仍会觉得Claude更好,但差距可以忽略不计。为了了解它与Claude Sonnets相比有多好,我运行了一些提示。以下是一些观察结果:Deepseek v3 0324比以前更能理解用户意图;我想说它比Claude 3.7 Sonnet基础版在思考方面更好,3.5在这方面仍然更好(也许是最好的)。同样,在原始的代码生成质量上,它比3.7好,与3.5相当,有时甚至更好。在推理方面表现很棒,比现在所有非推理模型都要好得多。在指令遵循方面比3.7 Sonnet好,但不如3.5 Sonnet。对于现实世界任务的原始能力,3.5 >= v3 > 3.7。想要完整的分析和评论,请查看这篇博客文章:[Deepseek v3 0324:国内的Sonnet 3.5](https://composio.dev/blog/deepseek - v3 - 0324 - the - sonnet - 3 - 5 - at - home/)。如此大规模的升级却没有像原始发布时那样的热度,这很疯狂。他们没把它命名为v3.5,否则它将从市场上再夺走数十亿美元。也许是时候深度探索(Deepseek)雇佣优秀的营销人员了。我很想听听你使用新DeepSeek - V3(0324)的体验。你觉得它怎么样,你会如何将它与Claude 3.5 Sonnet进行比较呢?
讨论总结
原帖主要探讨Deepseek v3 0324模型在推理能力等方面的提升,并与Claude 3.5 Sonnet进行比较。评论中大家从不同角度进行讨论,包括模型运行的硬件条件、成本、在虚构创作方面的表现、是否需要微调、模型测试方式等,有赞同也有反对的声音,整体氛围理性且充满技术交流的氛围。
主要观点
- 👍 Deepseek v3 0324推理能力大幅提升,与Claude 3.5 Sonnet在不同任务方面各有优劣
- 支持理由:原帖提到在多种任务能力上的对比,如代码生成、理解用户意图等方面,部分评论者也认可在某些任务上的表现。
- 反对声音:有评论者对比较结果表示质疑,认为原帖比较不准确。
- 🔥 运行Claude或类似模型若要达到在家般的方便需要强大的硬件支持,如数据中心
- 正方观点:从硬件要求如功率、硬件成本等多方面阐述,如Macbook难以提供运行模型所需功率等论据。
- 反方观点:有人表示自己用1000美元组装电脑就能运行,虽然速度慢但可解决部分问题。
- 💡 基础模型性能好有利于结合思维链提升
- 解释:评论者以Claude 3.7到3.7 thinking的提升为例进行说明。
- 🤔 Deepseek v3 0324不擅长虚构创作,Claude在这方面表现更好
- 解释:评论者通过自身感受及与Claude在生成字数、写作风格等方面比较得出。
- 😎 Deepseek v3 (0324)推理能力提升明显,是黑马,MIT许可证增加其对构建者的吸引力
- 解释:在与Claude的比较中体现推理能力提升,MIT许可证对于大规模实验构建者更有利。
金句与有趣评论
- “😂 ‘Claude at home’ yeah home, if you live in a data center 😂”
- 亮点:以幽默的方式表达运行Claude所需硬件要求之高。
- “🤔 The best thing about a base model having great performance is that there’s probably more to be gained from incorporating chain of thought.”
- 亮点:阐述基础模型性能与思维链的关系。
- “👀 Not good at fiction; some may like it, I do not. Claude is better (unless you are an ERPist).”
- 亮点:明确表达Deepseek v3 0324在虚构创作方面的不足并与Claude比较。
- “😏 I’m running this @ ~3tokens/sec (initially) on a $1000 computer I built from used parts from eBay.”
- 亮点:表明可以用低成本硬件运行模型。
- “🤨 Deepseek v3 (0324) definitely feels like a sleeper hit with how much it improves reasoning out of the box, the MIT license alone makes it more attractive for builders experimenting at scale.”
- 亮点:总结Deepseek v3 0324在推理能力提升和许可证方面的优势。
情感分析
总体情感倾向较为中立,主要分歧点在于Deepseek v3 0324模型与Claude 3.5 Sonnet的比较结果、模型的性能表现(如虚构创作方面)、运行模型的硬件和成本等方面。产生分歧的可能原因是不同用户的使用场景、需求以及对模型的期望不同。
趋势与预测
- 新兴话题:AI21的Jamba与Deepseek v3、Claude 3.5在多跳CoT推理和长文本用例方面的比较可能成为新兴话题。
- 潜在影响:对开源大型语言模型的发展可能产生积极影响,如促使模型改进在虚构创作、语境处理等方面的能力,也可能影响模型在不同硬件条件下的优化和推广策略。
详细内容:
标题:关于 Deepseek v3 0324 的热门讨论
在 Reddit 上,一篇关于 Deepseek v3 0324 的帖子引起了众多网友的热烈讨论。该帖子称终于在家里拥有了类似于 Claude 3.5 Sonnet 的模型,此次更新的 Deepseek v3 在推理能力方面有显著提升,采用了 MIT 许可证,模型大小为 641GB、685b,知识截止日期为 7 月 24 日。此帖获得了大量的关注,引发了众多精彩的讨论,点赞数和评论数众多。
讨论的焦点主要集中在以下几个方面: 有人认为 Claude 在实际应用中的表现更好,尤其是在某些边缘情况。例如,有人说:“Claude 在处理虚构内容方面表现更佳,而 Deepseek v3 0324 在这方面有所不足。”但也有人指出 Deepseek v3 0324 在代码生成和推理方面表现出色,比如有用户分享道:“在原始质量的代码生成方面,它优于 3.7,与 3.5 相当,有时甚至更好。在推理方面表现出色,远超其他非推理模型。”
关于在家运行该模型的可行性,观点各异。有人认为成本过高,不具备实际操作性,比如有人说:“没有消费级产品能推理 1500GB 的模型,需要数十个 H100,成本高达数十万美元。”但也有用户通过使用二手零件成功在自己组装的电脑上运行该模型,并分享道:“我在一台 1000 美元、用 eBay 二手零件组装的电脑上以约 3 个令牌/秒(初始)的速度运行它。也许对于严肃工作来说速度太慢,但大家需要积极思考,解决问题,勇于尝试。”
对于模型的指令跟随能力,有人提出疑问:“我想知道什么样的电脑规格才能在家里运行这样一个 685B 模型的基础指令跟随任务?”
在讨论中,也有共识存在。大家普遍认为 Deepseek v3 0324 的推理能力提升是一个积极的发展,为开源大语言模型带来了新的可能。
那么,您对于 Deepseek v3 0324 又有怎样的看法和体验呢?它是否真的能在某些方面与 Claude 3.5 Sonnet 相媲美?在家运行它是否现实可行?
感谢您的耐心阅读!来选个表情,或者留个评论吧!