新的DeepSeek模型大约为6000亿参数,那么DeepSeek是如何在他们的网站上运行得如此之快,并且以如此低廉的价格提供API的呢?人们还如此兴奋(他们为什么兴奋呢?我的意思是,这是一个6000亿参数的模型,它甚至无法装入80GB的显存)。在H100 GPU上生成单个响应难道不需要花费数小时吗(考虑到模型的大小)?就像我的700亿参数的Llama模型在A100(我正在使用云GPU)上生成需要一段时间,而这只是一个700亿参数的模型,6000亿参数是这个大小的许多倍,而DeepSeek能够以非常低廉的价格提供给人们,并且在他们的网站上速度非常快。
讨论总结
原帖对DeepSeek 600b模型在网站上运行快速且API价格便宜感到困惑,因为该模型规模大,按常理在硬件上运行应耗时久且成本高。评论从多个角度进行解答,包括模型是MoE所以只有部分参数活跃、其有效的推理部分约为34B、新技术如8位训练和多token预测使其更快更便宜、不同硬件运行的情况以及数据隐私等方面,也有部分评论偏离主题或者提出新的疑惑。
主要观点
- 👍 DeepSeek模型约600b,但运行快且API便宜令人疑惑。
- 支持理由:70b模型生成响应都需要时间,600b远大于70b理应更耗时。
- 反对声音:模型是MoE,实际有效推理部分约34B,成本低于70B密集模型。
- 🔥 该模型是MoE,只有部分参数活跃。
- 正方观点:这解释了其运行速度快和API便宜。
- 反方观点:对于活跃参数为37b时,运行速度类似普通37b模型,但不完全相同。
- 💡 大众首次拥有合法前沿模型所以兴奋。
- 解释:该模型的出现让大众首次能接触到前沿模型,所以人们为之兴奋。
- 💡 DeepSeek的MOE和API数据隐私性不佳。
- 解释:数据隐私方面存在风险,可能被用于训练。
- 💡 DeepSeek的价格并非新情况。
- 解释:并非因为新的价格策略才导致API便宜。
金句与有趣评论
- “😂 It’s MoE, only a fraction of those parameters are active.”
- 亮点:简洁地解释了模型运行快且便宜的关键原因是其MoE结构导致只有部分参数活跃。
- “🤔 People are generally hyped because it’s the first time the general public has had a legit frontier model at all.”
- 亮点:从大众可获取前沿模型的角度解释了人们兴奋的原因。
- “👀 There are only 37B parameters active for every token, so it’s less expensive for them to host than a 70B dense model would be.”
- 亮点:具体指出每个token活跃参数少,所以托管成本低。
- “😉 And because Deepseek successfully implemented two novel approaches: 8bit training and multi - token prediction. The latter makes the model faster and therefore even cheaper for deepseek to host it.”
- 亮点:阐述了Deepseek的新技术使其运行更快更便宜。
- “🧐 If it’s working in incognito, it strongly implies that something with your cookies is messed up, and you probably just need to wipe your local cache/cookies for that domain.”
- 亮点:针对登录问题提出可能是cookie的原因。
情感分析
总体情感倾向为中性且积极探索。主要分歧点在于原帖对DeepSeek模型运行速度和价格的疑惑,以及部分评论对模型隐私性和运行特性的不同看法。可能的原因是大家对模型的技术原理、成本结构以及隐私保护程度的理解不同。
趋势与预测
- 新兴话题:模型的隐私保护可能会引发后续讨论,如如何在保证速度和价格优势的情况下提高隐私性。
- 潜在影响:对AI模型的开发和部署可能产生影响,如促使开发者更加注重模型的优化和隐私保护,以及用户对模型性价比的考量。
详细内容:
标题:关于 DeepSeek 模型的热门讨论
在 Reddit 上,一个关于新的 DeepSeek 模型的讨论引起了广泛关注。原帖指出,DeepSeek 模型规模约 600b,但却能在其网站上快速运行并以低价提供 API,这令人感到困惑,因为如此大规模的模型按常理在生成响应时应耗时很久,且通常无法在 80gb VRAM 上运行。此帖获得了众多点赞和大量评论,引发了大家对模型性能、运行条件以及优势等方面的热烈讨论。
讨论的焦点主要集中在以下几个方面: 有人指出这是因为模型采用了 MoE(混合专家模型),只有一部分参数是活跃的,可以查看他们的论文了解相关的推理和部署细节。有人认为模型中只有 37b 活跃参数,所以其运行表现会像其他“正常”的 37b 模型一样快。但也有人提出,虽然是 37b 活跃参数,但它的性能并非完全等同于一般的 37b 模型,甚至可能更出色,因为使用了多令牌生成,类似于 20B 模型。 有用户好奇自己的 128gb 统一内存的 Macbook M4 能否运行该模型。有人表示理论上只要有足够的 RAM(CPU RAM)就能运行,但获取这么大的内存并非易事,消费者主板通常没有足够的插槽。还有人提到,对于本地部署,其性能会更接近 670B 模型的水平。 有人认为该模型在服务器基础设施中表现出色,因为其具有高效的推理速度,适合处理大量同时用户的请求。但在 DDR4 上运行可能会较慢,人们过于乐观了。 关于模型能否在 512GB 的 RAM 和 EPYC CPU 上运行,大家看法不一。有人说可以,但需要进行量化,也有人认为速度会很慢。 关于模型的专家机制,有人解释说 MoE 是将总模型拆分成“专家”,路由器会选择每个令牌要使用的专家。
讨论中的共识在于,DeepSeek 模型的创新之处和高效性能是人们兴奋的原因,但在实际运行中的各种条件和效果仍存在争议。 特别有见地的观点如,有人详细解释了 MoE 模型中专家的选择机制和其在提高性能方面的作用。 总之,关于 DeepSeek 模型的讨论充分展示了其复杂性和吸引力,也反映了大家对新技术的好奇和探索。
感谢您的耐心阅读!来选个表情,或者留个评论吧!