他们的论文中有更多有趣的细节。

讨论总结

该讨论以DeepSeek V3为主题，涉及多个方面。既有DeepSeek粉丝表达对相关帖子的喜爱，也有将其与OpenAI对比的观点，表达对OpenAI转变的失望并认为开放组织正在治愈创伤。同时对DeepSeek V3的技术层面进行了探讨，如它仅用500万美元训练资源构建令人惊叹，Multi - Token Prediction技术的原理和优势，还探讨了模型的运行成本、参数疑问、论文内容缺失等问题，此外也涉及开源相关的疑惑和看法等。整体氛围较为积极理性，大家积极分享观点和答疑解惑。

主要观点

👍 是DeepSeek的粉丝并喜欢相关帖子
- 支持理由：从一开始就是DeepSeek的粉丝，希望看到更多相关帖子。
- 反对声音：无
🔥 OpenAI的转变使其让粉丝失望
- 正方观点：曾经是OpenAI粉丝，OpenAI逐渐变得令人厌恶，背离初心。
- 反方观点：无
💡 DeepSeek V3用较少的训练资源构建很令人惊叹
- 解释：仅用500万美元训练资源就构建起DeepSeek V3很了不起。
💡 Multi - Token Prediction是同时预测多个单词
- 解释：例如DeepSeek V3使用时可同时预测下两个单词，有诸多好处。
💡 对DeepSeek V3开源感到高兴
- 解释：虽然论文高深，但开源很有意义，在编码方面有前景。

金句与有趣评论

“😂 being a fan of deepseek since the start, i am so loving all these posts, keep them coming.”
- 亮点：表达出对DeepSeek深深的喜爱和对这类帖子的期待。
“🤔 Yeah, me too. I remember a few years ago I was such a fan of openAI and I really loved gpt - 3, especially text - davinci…. and then this rapacious corporation mutated or is still mutating more and more into a vile creature and have disillusioned me so badly.”
- 亮点：生动地描述了对OpenAI从喜爱到失望的转变过程。
“👀 Pretty incredible they built this with only $5M of training resources.”
- 亮点：突出DeepSeek V3构建时训练资源投入少的惊人之处。
“💡 Super Guessing (Multi - Token Prediction): Now, imagine being able to guess two words at once!”
- 亮点：简单形象地解释了Multi - Token Prediction技术的特点。
“🤔 The paper is too advanced for me, but I’m glad that they opensource it.”
- 亮点：体现出虽然对论文理解困难但对开源的认可。

情感分析

总体情感倾向是积极的。主要分歧点在于对中国人开源DeepSeek V3的看法，有人认为开源可防止财富集中是好事，有人质疑为何不将其用于盈利。可能的原因是不同的价值观和对开源理念理解的差异，以及从商业和社会价值等不同角度看待问题。

趋势与预测

新兴话题：关于DeepSeek V3是否是第一个生产就绪模型可能会引发后续讨论。
潜在影响：如果DeepSeek V3在编码方面的前景如大家期待般发展，可能会对编码相关领域产生积极影响，推动技术进步；关于开源财富分配的讨论也可能影响人们对开源项目的看法和决策。

详细内容：

《关于 DeepSeek V3 的热门讨论》

近日，Reddit 上一则关于 DeepSeek V3 的帖子引发了众多关注。该帖介绍了 DeepSeek V3 是用合成数据进行编码和数学处理的，采用了从 R1（推理模型）的蒸馏技术，还实现了新颖的多令牌预测技术，并提供了相关论文的链接https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf。此帖获得了大量的点赞和众多评论，引发了一系列热烈的讨论。

讨论的焦点主要集中在以下几个方面：

有人是 DeepSeek 的忠实粉丝，分享了自己从喜欢其他模型到被 DeepSeek 吸引的经历。

有人认为 DeepSeek V3 仅用 500 万美元的训练资源就建成，令人惊叹。也有人指出，生成数据的花费可能达 7 位数。

关于多令牌预测技术，有人进行了详细的解释：正常的猜测是预测下一个单词，而超级猜测（多令牌预测）则是一次预测两个单词。因为 DeepSeek V3 能预测两个单词，所以能更好地理解语言的流向，生成更连贯的句子，而且速度比每次只预测一个单词快 1.8 倍。

有人认为该论文太高级，但其开源令人欣喜，对编码很有前景。但也有人疑惑为什么中国开源了这个，认为本可以通过专利成立一家价值数十亿美元的公司。有人认为通过开源数据和权重能防止财富集中在 OpenAI 或谷歌，财富不会被摧毁，而是在包括 DeepSeek、OpenAI 和谷歌在内的各方之间分配。

有人质疑 6000 亿参数的模型如何运行，认为只有服务器基础设施可行，还探讨了总参数与活跃参数的比例问题。

有人询问这是否是第一个实现多令牌预测的模型，有人回答在这种规模上或许是第一个，但总体上不是，并提供了相关研究论文的链接[https://huggingface.co/facebook/multi-token-prediction]。

有人希望能有像 DeepSeek V2 那样的更小版本，在 CPU 上能快速运行。

在这场讨论中，各方观点精彩纷呈。有人从专业角度分析技术细节，有人从商业角度思考开源的利弊。而关于 DeepSeek V3 未来的发展和应用，以及其在行业中的地位和影响，仍有待进一步的观察和探讨。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#