他们的论文中有更多有趣的细节。
讨论总结
该讨论以DeepSeek V3为主题,涉及多个方面。既有DeepSeek粉丝表达对相关帖子的喜爱,也有将其与OpenAI对比的观点,表达对OpenAI转变的失望并认为开放组织正在治愈创伤。同时对DeepSeek V3的技术层面进行了探讨,如它仅用500万美元训练资源构建令人惊叹,Multi - Token Prediction技术的原理和优势,还探讨了模型的运行成本、参数疑问、论文内容缺失等问题,此外也涉及开源相关的疑惑和看法等。整体氛围较为积极理性,大家积极分享观点和答疑解惑。
主要观点
- 👍 是DeepSeek的粉丝并喜欢相关帖子
- 支持理由:从一开始就是DeepSeek的粉丝,希望看到更多相关帖子。
- 反对声音:无
- 🔥 OpenAI的转变使其让粉丝失望
- 正方观点:曾经是OpenAI粉丝,OpenAI逐渐变得令人厌恶,背离初心。
- 反方观点:无
- 💡 DeepSeek V3用较少的训练资源构建很令人惊叹
- 解释:仅用500万美元训练资源就构建起DeepSeek V3很了不起。
- 💡 Multi - Token Prediction是同时预测多个单词
- 解释:例如DeepSeek V3使用时可同时预测下两个单词,有诸多好处。
- 💡 对DeepSeek V3开源感到高兴
- 解释:虽然论文高深,但开源很有意义,在编码方面有前景。
金句与有趣评论
- “😂 being a fan of deepseek since the start, i am so loving all these posts, keep them coming.”
- 亮点:表达出对DeepSeek深深的喜爱和对这类帖子的期待。
- “🤔 Yeah, me too. I remember a few years ago I was such a fan of openAI and I really loved gpt - 3, especially text - davinci…. and then this rapacious corporation mutated or is still mutating more and more into a vile creature and have disillusioned me so badly.”
- 亮点:生动地描述了对OpenAI从喜爱到失望的转变过程。
- “👀 Pretty incredible they built this with only $5M of training resources.”
- 亮点:突出DeepSeek V3构建时训练资源投入少的惊人之处。
- “💡 Super Guessing (Multi - Token Prediction): Now, imagine being able to guess two words at once!”
- 亮点:简单形象地解释了Multi - Token Prediction技术的特点。
- “🤔 The paper is too advanced for me, but I’m glad that they opensource it.”
- 亮点:体现出虽然对论文理解困难但对开源的认可。
情感分析
总体情感倾向是积极的。主要分歧点在于对中国人开源DeepSeek V3的看法,有人认为开源可防止财富集中是好事,有人质疑为何不将其用于盈利。可能的原因是不同的价值观和对开源理念理解的差异,以及从商业和社会价值等不同角度看待问题。
趋势与预测
- 新兴话题:关于DeepSeek V3是否是第一个生产就绪模型可能会引发后续讨论。
- 潜在影响:如果DeepSeek V3在编码方面的前景如大家期待般发展,可能会对编码相关领域产生积极影响,推动技术进步;关于开源财富分配的讨论也可能影响人们对开源项目的看法和决策。
详细内容:
《关于 DeepSeek V3 的热门讨论》
近日,Reddit 上一则关于 DeepSeek V3 的帖子引发了众多关注。该帖介绍了 DeepSeek V3 是用合成数据进行编码和数学处理的,采用了从 R1(推理模型)的蒸馏技术,还实现了新颖的多令牌预测技术,并提供了相关论文的链接https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf。此帖获得了大量的点赞和众多评论,引发了一系列热烈的讨论。
讨论的焦点主要集中在以下几个方面:
有人是 DeepSeek 的忠实粉丝,分享了自己从喜欢其他模型到被 DeepSeek 吸引的经历。
有人认为 DeepSeek V3 仅用 500 万美元的训练资源就建成,令人惊叹。也有人指出,生成数据的花费可能达 7 位数。
关于多令牌预测技术,有人进行了详细的解释:正常的猜测是预测下一个单词,而超级猜测(多令牌预测)则是一次预测两个单词。因为 DeepSeek V3 能预测两个单词,所以能更好地理解语言的流向,生成更连贯的句子,而且速度比每次只预测一个单词快 1.8 倍。
有人认为该论文太高级,但其开源令人欣喜,对编码很有前景。但也有人疑惑为什么中国开源了这个,认为本可以通过专利成立一家价值数十亿美元的公司。有人认为通过开源数据和权重能防止财富集中在 OpenAI 或谷歌,财富不会被摧毁,而是在包括 DeepSeek、OpenAI 和谷歌在内的各方之间分配。
有人质疑 6000 亿参数的模型如何运行,认为只有服务器基础设施可行,还探讨了总参数与活跃参数的比例问题。
有人询问这是否是第一个实现多令牌预测的模型,有人回答在这种规模上或许是第一个,但总体上不是,并提供了相关研究论文的链接[https://huggingface.co/facebook/multi-token-prediction]。
有人希望能有像 DeepSeek V2 那样的更小版本,在 CPU 上能快速运行。
在这场讨论中,各方观点精彩纷呈。有人从专业角度分析技术细节,有人从商业角度思考开源的利弊。而关于 DeepSeek V3 未来的发展和应用,以及其在行业中的地位和影响,仍有待进一步的观察和探讨。
感谢您的耐心阅读!来选个表情,或者留个评论吧!