原贴链接

他们的论文中有更多有趣的细节。

image

讨论总结

该讨论以DeepSeek V3为主题,涉及多个方面。既有DeepSeek粉丝表达对相关帖子的喜爱,也有将其与OpenAI对比的观点,表达对OpenAI转变的失望并认为开放组织正在治愈创伤。同时对DeepSeek V3的技术层面进行了探讨,如它仅用500万美元训练资源构建令人惊叹,Multi - Token Prediction技术的原理和优势,还探讨了模型的运行成本、参数疑问、论文内容缺失等问题,此外也涉及开源相关的疑惑和看法等。整体氛围较为积极理性,大家积极分享观点和答疑解惑。

主要观点

  1. 👍 是DeepSeek的粉丝并喜欢相关帖子
    • 支持理由:从一开始就是DeepSeek的粉丝,希望看到更多相关帖子。
    • 反对声音:无
  2. 🔥 OpenAI的转变使其让粉丝失望
    • 正方观点:曾经是OpenAI粉丝,OpenAI逐渐变得令人厌恶,背离初心。
    • 反方观点:无
  3. 💡 DeepSeek V3用较少的训练资源构建很令人惊叹
    • 解释:仅用500万美元训练资源就构建起DeepSeek V3很了不起。
  4. 💡 Multi - Token Prediction是同时预测多个单词
    • 解释:例如DeepSeek V3使用时可同时预测下两个单词,有诸多好处。
  5. 💡 对DeepSeek V3开源感到高兴
    • 解释:虽然论文高深,但开源很有意义,在编码方面有前景。

金句与有趣评论

  1. “😂 being a fan of deepseek since the start, i am so loving all these posts, keep them coming.”
    • 亮点:表达出对DeepSeek深深的喜爱和对这类帖子的期待。
  2. “🤔 Yeah, me too. I remember a few years ago I was such a fan of openAI and I really loved gpt - 3, especially text - davinci…. and then this rapacious corporation mutated or is still mutating more and more into a vile creature and have disillusioned me so badly.”
    • 亮点:生动地描述了对OpenAI从喜爱到失望的转变过程。
  3. “👀 Pretty incredible they built this with only $5M of training resources.”
    • 亮点:突出DeepSeek V3构建时训练资源投入少的惊人之处。
  4. “💡 Super Guessing (Multi - Token Prediction): Now, imagine being able to guess two words at once!”
    • 亮点:简单形象地解释了Multi - Token Prediction技术的特点。
  5. “🤔 The paper is too advanced for me, but I’m glad that they opensource it.”
    • 亮点:体现出虽然对论文理解困难但对开源的认可。

情感分析

总体情感倾向是积极的。主要分歧点在于对中国人开源DeepSeek V3的看法,有人认为开源可防止财富集中是好事,有人质疑为何不将其用于盈利。可能的原因是不同的价值观和对开源理念理解的差异,以及从商业和社会价值等不同角度看待问题。

趋势与预测

  • 新兴话题:关于DeepSeek V3是否是第一个生产就绪模型可能会引发后续讨论。
  • 潜在影响:如果DeepSeek V3在编码方面的前景如大家期待般发展,可能会对编码相关领域产生积极影响,推动技术进步;关于开源财富分配的讨论也可能影响人们对开源项目的看法和决策。

详细内容:

《关于 DeepSeek V3 的热门讨论》

近日,Reddit 上一则关于 DeepSeek V3 的帖子引发了众多关注。该帖介绍了 DeepSeek V3 是用合成数据进行编码和数学处理的,采用了从 R1(推理模型)的蒸馏技术,还实现了新颖的多令牌预测技术,并提供了相关论文的链接https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf。此帖获得了大量的点赞和众多评论,引发了一系列热烈的讨论。

讨论的焦点主要集中在以下几个方面:

有人是 DeepSeek 的忠实粉丝,分享了自己从喜欢其他模型到被 DeepSeek 吸引的经历。

有人认为 DeepSeek V3 仅用 500 万美元的训练资源就建成,令人惊叹。也有人指出,生成数据的花费可能达 7 位数。

关于多令牌预测技术,有人进行了详细的解释:正常的猜测是预测下一个单词,而超级猜测(多令牌预测)则是一次预测两个单词。因为 DeepSeek V3 能预测两个单词,所以能更好地理解语言的流向,生成更连贯的句子,而且速度比每次只预测一个单词快 1.8 倍。

有人认为该论文太高级,但其开源令人欣喜,对编码很有前景。但也有人疑惑为什么中国开源了这个,认为本可以通过专利成立一家价值数十亿美元的公司。有人认为通过开源数据和权重能防止财富集中在 OpenAI 或谷歌,财富不会被摧毁,而是在包括 DeepSeek、OpenAI 和谷歌在内的各方之间分配。

有人质疑 6000 亿参数的模型如何运行,认为只有服务器基础设施可行,还探讨了总参数与活跃参数的比例问题。

有人询问这是否是第一个实现多令牌预测的模型,有人回答在这种规模上或许是第一个,但总体上不是,并提供了相关研究论文的链接[https://huggingface.co/facebook/multi-token-prediction]。

有人希望能有像 DeepSeek V2 那样的更小版本,在 CPU 上能快速运行。

在这场讨论中,各方观点精彩纷呈。有人从专业角度分析技术细节,有人从商业角度思考开源的利弊。而关于 DeepSeek V3 未来的发展和应用,以及其在行业中的地位和影响,仍有待进一步的观察和探讨。