现在正在等待4060ti 16G到货。需要大量自定义代码才能有效利用这种混合设置,敬请期待。我认为优化后量化为671B时能达到每秒10个以上的标记。你可以使用“ASUS Hyper M.2 x16 Gen5 Card”来挂载4个NVME。目前你需要AMD的CPU来进行原生x4x4x4x4分叉。
讨论总结
原帖介绍了My DeepSeek R1 671B的在家计划,包括硬件组合和性能预期。评论内容广泛,涉及对设备性能的怀疑、对计划中硬件兼容性的提醒、对模型相关问题的询问、对计划成本的关注以及分享类似计划的链接等,整体讨论氛围比较理性,大家从不同技术角度进行探讨。
主要观点
- 👍 对原帖中设备能达到10 + token/s表示怀疑
- 支持理由:评论者以自己使用Epyc 9684x搭配12通道DDR5 4800(约461GB/s)时未超过9左右为例。
- 反对声音:无
- 🔥 主板支持分叉功能对原帖中的硬件搭建计划很重要
- 正方观点:硬件搭建时主板功能需与计划中的硬件兼容,确保分叉功能支持是关键。
- 反方观点:无
- 💡 古老的2011v3主板加两颗至强处理器运行671b速度更快且更便宜
- 理由:相比原帖计划中的硬件组合,这种组合在性价比和运行速度上更有优势。
- 💡 不同设备的硬件配置会影响性能结果
- 解释:通过不同设备如不同CPU、内存、PCIe通道等配置的比较得出。
- 💡 分叉操作会导致性能下降
- 解释:dodo13333根据自己经验认为这种操作会使性能显著下降。
金句与有趣评论
- “😂 我不认为他们已经发布了v3架构的小模型。”
- 亮点:反映出模型发布情况,对于了解相关模型进展有帮助。
- “🤔 我认为无上下文时理论速度约为1个token/秒,满上下文时慢至7.9秒/个token。”
- 亮点:提供了关于DeepSeek R1在不同上下文下的理论速度计算。
- “👀 如果您感兴趣,我已经对模型进行了一周的修剪工作。”
- 亮点:展示了评论者在模型修剪方面的工作进展。
情感分析
总体情感倾向较为中性,主要分歧点在于对原帖计划的可行性和性价比方面。可能的原因是不同用户有不同的技术经验和成本考量,一些人对原帖计划中的硬件组合表示怀疑,而另一些人则在技术细节方面提出提醒或分享自己的经验。
趋势与预测
- 新兴话题:模型修剪工作可能会引发更多关于模型优化方面的讨论。
- 潜在影响:对相关人工智能硬件和模型优化领域可能会提供更多的实践参考和思路。
详细内容:
标题:关于 DeepSeek R1 671B @ Home 计划的热门讨论
在 Reddit 上,一则关于“My DeepSeek R1 671B @ Home 计划:CPU+GPU 混合,4xGen5 NVMe 卸载”的帖子引发了众多网友的热烈讨论。该帖子获得了大量的关注,评论数众多。
帖子主要介绍了作者正在等待 4060ti 16G 到货,需要大量自定义代码来有效利用这种混合设置,并认为优化后可以达到每秒 10 多个令牌。
讨论的焦点主要集中在这种设置能否实现预期的性能。有人表示怀疑,比如 [tomz17] 称在 Epyc 9684x 搭配 12 通道 DDR5 4800 的情况下,都没超过每秒 9 个左右。[fallingdowndizzyvr] 认为以当前的带宽情况,不可能达到每秒 10 个令牌。[JacketHistorical2321] 则称自己的线程撕裂者 Pro 配置每秒带宽 63GB 但每秒只有约 3 个令牌,认为作者不切实际。
也有一些有趣的观点,[bo_peng] 指出注意力激活和 MoE 激活的参数情况,并认为 50+GB/s 的带宽就足够,还可以使用推测解码和预取。[arki05] 询问了 DeepSeek - v3 的多令牌预测情况。[goingsplit] 提出了关于集群推理的问题。
在讨论中,存在一些共识,比如大家普遍对这种设置的实际性能表示谨慎态度。而特别有见地的观点如 [bo_peng] 的技术分析,丰富了讨论内容。
总的来说,关于这个 DeepSeek R1 671B @ Home 计划的讨论十分热烈和深入,各方观点的碰撞为相关领域的爱好者和从业者提供了更多的思考和借鉴。
感谢您的耐心阅读!来选个表情,或者留个评论吧!