原贴链接

今日，DeepSeek发布并开源了其新模型系列的首个版本DeepSeek - V3。可在官方网站chat.deepseek.com直接与最新的V3模型聊天。API服务已相应更新，现有API配置无需更改。当前版本的DeepSeek - V3尚不支持多模态输入/输出。性能可与领先的专有模型相匹配。关键规格：基于专有的MoE（混合专家）架构，共有6710亿个参数，其中激活参数为370亿个，在14.8万亿个标记上进行预训练。研究论文：[https://github.com/deepseek - ai/DeepSeek - V3/blob/main/DeepSeek_V3.pdf](https://github.com/deepseek - ai/DeepSeek - V3/blob/main/DeepSeek_V3.pdf)。基准测试结果表明，DeepSeek - V3优于包括Qwen2.5 - 72B和Llama - 3.1 - 405B在内的其他开源模型，其性能与世界领先的专有模型如GPT - 4o和Claude - 3.5 - Sonnet相当。在百科知识方面：DeepSeek - V3在基于知识的任务（MMLU、MMLU - Pro、GPQA、SimpleQA）上较其前身DeepSeek - V2.5有显著提升，接近当前最佳模型Claude - 3.5 - Sonnet - 1022的性能。长文本方面：在长文本评估（DROP、FRAMES、LongBench v2）中，DeepSeek - V3平均优于其他模型。代码方面：DeepSeek - V3在算法编码场景（Codeforces）中显著领先所有非o1模型，在软件工程场景（SWE - Bench Verified）中接近Claude - 3.5 - Sonnet - 1022。数学方面：在美国数学邀请赛（AIME 2024，MATH）和中国全国数学奥林匹克竞赛（CNMO 2024）中，DeepSeek - V3大幅超越所有开源和专有模型。中文能力方面：DeepSeek - V3在C - Eval和代词消歧等教育评估集上与Qwen2.5 - 72B表现相似，在C - SimpleQA等事实知识测试中表现更优。生成速度提高了3倍，通过算法和工程创新，DeepSeek - V3的标记生成速度从20个标记/秒显著提高到60个标记/秒，较V2.5模型提高了3倍，为用户带来更快更流畅的体验。API服务价格调整，随着更强大、更快的DeepSeek - V3的发布，模型API服务定价将调整为每百万输入标记0.5元（缓存命中）/2元（缓存未命中），每百万输出标记8元。同时决定为新模型提供45天的促销期，从现在起到2025年2月8日，DeepSeek - V3的API服务将维持熟悉的定价，即每百万输入标记0.1元（缓存命中）/1元（缓存未命中），每百万输出标记2元，现有注册用户和在此期间注册的新用户都可享受促销价格。开源权重和本地部署，DeepSeek - V3以FP8格式训练并提供原生FP8权重开源。得益于开源社区的支持，SGLang和LMDeploy立即添加了对V3模型原生FP8推理的支持，TensorRT - LLM和MindIE实现了BF16推理，此外为便于社区适配和扩展应用场景，提供从FP8到BF16的转换脚本。更多模型权重下载和本地部署信息请参考：[https://huggingface.co/deepseek - ai/DeepSeek - V3 - Base](https://huggingface.co/deepseek - ai/DeepSeek - V3 - Base)。DeepSeek一直秉持“以开源精神和长期承诺追求包容性AGI”的坚定信念，很高兴与社区分享模型预训练的进展，也很高兴看到开源和闭源模型之间的能力差距不断缩小。这是一个新的开始，未来将继续基于DeepSeek - V3基础模型开发如深度思考和多模态等更丰富的功能，并继续与社区分享最新探索成果。

讨论总结

该讨论主要围绕DeepSeek - V3模型的发布展开。涉及模型的参数规模、性能表现（如在知识问题回答、不同任务的评测等）、本地运行的难度（包括内存需求等）、训练成本、开源许可证是否符合定义等方面。同时也有一些与模型发布相关的调侃和意外之感，还有个别评论涉及到不相关的英伟达出口限制预测。

主要观点

👍 模型具有多方面的庞大性
- 支持理由：从帖子中模型的各项数据和性能表现可推测出。
- 反对声音：无。
🔥 671B参数对于本地运行是个挑战
- 正方观点：参数数量庞大，运行可能面临资源不足等问题。
- 反方观点：无。
💡 认为DeepSeek - V3对知识问题的答案过短
- 这只是评论者的主观感受，没有详细阐述。
💡 等待DeepSeek - V3的用户体验和更多基准测试结果
- 因为之前尝试DeepSeek的其他模型体验不佳。
- 无反对声音。
💡 认为DeepSeek - V3的训练成本550万美元很高
- 金额巨大给人直观感受。
- 无反对声音。

金句与有趣评论

“😂 SandboChang: This model is huge in many ways.”
- 亮点：简洁概括模型的特性。
“🤔 mlon_eusk - _ -: 671B params 🫡 good luck anyone who’s gonna try locally”
- 亮点：幽默调侃本地运行的难度。
“👀 maxpayne07：….well… I found the answers about knowledge questions to short. Just my POV”
- 亮点：提出了对模型回答知识问题的不同看法。
“😉 我原本期待美国公司有惊喜发布，没想到Deepseek发布了可与4o和Sonnet相媲美的模型。”
- 亮点：表达出对Deepseek发布模型的意外之感。
“😲 Charuru：$5.5 million to train is astounding.”
- 亮点：对模型训练成本表示震惊。

情感分析

总体情感倾向较为复杂。有正面的对模型规模庞大性的认可，也有负面的如认为模型知识问题答案过短、对开源许可证不符合开源定义的批评。主要分歧点在于对模型性能和价值判断上，如一些人看好模型的表现，一些人则因之前体验不佳而持观望态度。可能的原因是不同用户的使用场景、期望以及对模型不同方面（如性能、成本、开源性等）的关注度不同。

趋势与预测

新兴话题：关于FP8训练是否有技术突破的疑问可能会引发后续技术讨论。
潜在影响：如果模型真的性能优越且价格合理，可能会对同类型模型的市场竞争格局产生影响；如果开源许可证问题被更多关注，可能影响开源社区对类似项目的态度。

详细内容：

标题：DeepSeek-V3 正式发布引发热议

近日，DeepSeek 正式发布并开源了其新模型系列的首个版本——DeepSeek-V3，在 Reddit 上引发了广泛关注。此帖子获得了众多点赞和大量评论。

帖子主要介绍了 DeepSeek-V3 的一系列特性，包括基于专有 MoE 架构、庞大的参数规模、在多个领域的出色表现、生成速度大幅提升、API 服务价格调整、开源权重和本地部署等方面。同时，还提到了针对该模型的不同观点和讨论。

讨论焦点主要集中在以下几个方面：有人认为模型参数规模过大，在本地运行存在困难。比如，有人表示“37B 参数在 CPU 上运行量仍非常大，不确定低于 4 通道能否使其运行得足够快，而且仍需要基本上 1 太字节的内存（以目前的 DDR5 技术是否能够实现？）”。有人对模型的知识回答长度表示不满，认为太短。也有人期待看到更多用户体验和基准测试结果。还有关于模型训练成本高昂以及 FP8 训练框架的探讨。

对于模型的开源许可证问题，存在争议。有人指出该许可证存在诸多限制，并非真正的“开源”，比如使用限制、禁止某些类型的使用、对衍生作品的要求等，认为这无法保证自由修改和分发的权利。但也有人认为这并非是在利用开源社区推广。

总的来说，DeepSeek-V3 的发布引起了广泛关注和热烈讨论，其性能、应用和开源等方面都成为了大家关注的焦点。关于它未来的发展和实际应用效果，还需要更多的时间和实践来检验。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#