原贴链接

今日,DeepSeek发布并开源了其新模型系列的首个版本DeepSeek - V3。可在官方网站chat.deepseek.com直接与最新的V3模型聊天。API服务已相应更新,现有API配置无需更改。当前版本的DeepSeek - V3尚不支持多模态输入/输出。性能可与领先的专有模型相匹配。关键规格:基于专有的MoE(混合专家)架构,共有6710亿个参数,其中激活参数为370亿个,在14.8万亿个标记上进行预训练。研究论文:[https://github.com/deepseek - ai/DeepSeek - V3/blob/main/DeepSeek_V3.pdf](https://github.com/deepseek - ai/DeepSeek - V3/blob/main/DeepSeek_V3.pdf)。基准测试结果表明,DeepSeek - V3优于包括Qwen2.5 - 72B和Llama - 3.1 - 405B在内的其他开源模型,其性能与世界领先的专有模型如GPT - 4o和Claude - 3.5 - Sonnet相当。在百科知识方面:DeepSeek - V3在基于知识的任务(MMLU、MMLU - Pro、GPQA、SimpleQA)上较其前身DeepSeek - V2.5有显著提升,接近当前最佳模型Claude - 3.5 - Sonnet - 1022的性能。长文本方面:在长文本评估(DROP、FRAMES、LongBench v2)中,DeepSeek - V3平均优于其他模型。代码方面:DeepSeek - V3在算法编码场景(Codeforces)中显著领先所有非o1模型,在软件工程场景(SWE - Bench Verified)中接近Claude - 3.5 - Sonnet - 1022。数学方面:在美国数学邀请赛(AIME 2024,MATH)和中国全国数学奥林匹克竞赛(CNMO 2024)中,DeepSeek - V3大幅超越所有开源和专有模型。中文能力方面:DeepSeek - V3在C - Eval和代词消歧等教育评估集上与Qwen2.5 - 72B表现相似,在C - SimpleQA等事实知识测试中表现更优。生成速度提高了3倍,通过算法和工程创新,DeepSeek - V3的标记生成速度从20个标记/秒显著提高到60个标记/秒,较V2.5模型提高了3倍,为用户带来更快更流畅的体验。API服务价格调整,随着更强大、更快的DeepSeek - V3的发布,模型API服务定价将调整为每百万输入标记0.5元(缓存命中)/2元(缓存未命中),每百万输出标记8元。同时决定为新模型提供45天的促销期,从现在起到2025年2月8日,DeepSeek - V3的API服务将维持熟悉的定价,即每百万输入标记0.1元(缓存命中)/1元(缓存未命中),每百万输出标记2元,现有注册用户和在此期间注册的新用户都可享受促销价格。开源权重和本地部署,DeepSeek - V3以FP8格式训练并提供原生FP8权重开源。得益于开源社区的支持,SGLang和LMDeploy立即添加了对V3模型原生FP8推理的支持,TensorRT - LLM和MindIE实现了BF16推理,此外为便于社区适配和扩展应用场景,提供从FP8到BF16的转换脚本。更多模型权重下载和本地部署信息请参考:[https://huggingface.co/deepseek - ai/DeepSeek - V3 - Base](https://huggingface.co/deepseek - ai/DeepSeek - V3 - Base)。DeepSeek一直秉持“以开源精神和长期承诺追求包容性AGI”的坚定信念,很高兴与社区分享模型预训练的进展,也很高兴看到开源和闭源模型之间的能力差距不断缩小。这是一个新的开始,未来将继续基于DeepSeek - V3基础模型开发如深度思考和多模态等更丰富的功能,并继续与社区分享最新探索成果。

讨论总结

该讨论主要围绕DeepSeek - V3模型的发布展开。涉及模型的参数规模、性能表现(如在知识问题回答、不同任务的评测等)、本地运行的难度(包括内存需求等)、训练成本、开源许可证是否符合定义等方面。同时也有一些与模型发布相关的调侃和意外之感,还有个别评论涉及到不相关的英伟达出口限制预测。

主要观点

  1. 👍 模型具有多方面的庞大性
    • 支持理由:从帖子中模型的各项数据和性能表现可推测出。
    • 反对声音:无。
  2. 🔥 671B参数对于本地运行是个挑战
    • 正方观点:参数数量庞大,运行可能面临资源不足等问题。
    • 反方观点:无。
  3. 💡 认为DeepSeek - V3对知识问题的答案过短
    • 这只是评论者的主观感受,没有详细阐述。
  4. 💡 等待DeepSeek - V3的用户体验和更多基准测试结果
    • 因为之前尝试DeepSeek的其他模型体验不佳。
    • 无反对声音。
  5. 💡 认为DeepSeek - V3的训练成本550万美元很高
    • 金额巨大给人直观感受。
    • 无反对声音。

金句与有趣评论

  1. “😂 SandboChang: This model is huge in many ways.”
    • 亮点:简洁概括模型的特性。
  2. “🤔 mlon_eusk - _ -: 671B params 🫡 good luck anyone who’s gonna try locally”
    • 亮点:幽默调侃本地运行的难度。
  3. “👀 maxpayne07:….well… I found the answers about knowledge questions to short. Just my POV”
    • 亮点:提出了对模型回答知识问题的不同看法。
  4. “😉 我原本期待美国公司有惊喜发布,没想到Deepseek发布了可与4o和Sonnet相媲美的模型。”
    • 亮点:表达出对Deepseek发布模型的意外之感。
  5. “😲 Charuru:$5.5 million to train is astounding.”
    • 亮点:对模型训练成本表示震惊。

情感分析

总体情感倾向较为复杂。有正面的对模型规模庞大性的认可,也有负面的如认为模型知识问题答案过短、对开源许可证不符合开源定义的批评。主要分歧点在于对模型性能和价值判断上,如一些人看好模型的表现,一些人则因之前体验不佳而持观望态度。可能的原因是不同用户的使用场景、期望以及对模型不同方面(如性能、成本、开源性等)的关注度不同。

趋势与预测

  • 新兴话题:关于FP8训练是否有技术突破的疑问可能会引发后续技术讨论。
  • 潜在影响:如果模型真的性能优越且价格合理,可能会对同类型模型的市场竞争格局产生影响;如果开源许可证问题被更多关注,可能影响开源社区对类似项目的态度。

详细内容:

标题:DeepSeek-V3 正式发布引发热议

近日,DeepSeek 正式发布并开源了其新模型系列的首个版本——DeepSeek-V3,在 Reddit 上引发了广泛关注。此帖子获得了众多点赞和大量评论。

帖子主要介绍了 DeepSeek-V3 的一系列特性,包括基于专有 MoE 架构、庞大的参数规模、在多个领域的出色表现、生成速度大幅提升、API 服务价格调整、开源权重和本地部署等方面。同时,还提到了针对该模型的不同观点和讨论。

讨论焦点主要集中在以下几个方面: 有人认为模型参数规模过大,在本地运行存在困难。比如,有人表示“37B 参数在 CPU 上运行量仍非常大,不确定低于 4 通道能否使其运行得足够快,而且仍需要基本上 1 太字节的内存(以目前的 DDR5 技术是否能够实现?)”。 有人对模型的知识回答长度表示不满,认为太短。 也有人期待看到更多用户体验和基准测试结果。 还有关于模型训练成本高昂以及 FP8 训练框架的探讨。

对于模型的开源许可证问题,存在争议。有人指出该许可证存在诸多限制,并非真正的“开源”,比如使用限制、禁止某些类型的使用、对衍生作品的要求等,认为这无法保证自由修改和分发的权利。但也有人认为这并非是在利用开源社区推广。

总的来说,DeepSeek-V3 的发布引起了广泛关注和热烈讨论,其性能、应用和开源等方面都成为了大家关注的焦点。关于它未来的发展和实际应用效果,还需要更多的时间和实践来检验。