原贴链接

先别急着去买5090TI（要是你能找到的话，哈哈）！我刚刚在一台96GB内存的游戏主机上禁用3090TI GPU后，使用完整的R1 671B模型（不是精简版）的动态量化，在2000个上下文的情况下实现了约2.13个标记/秒的推理速度。秘诀就是除了键值缓存（kv cache）之外不在内存中加载任何东西，让llama.cpp使用其默认行为从快速的NVMe SSD上进行内存映射（mmap）模型文件。系统其余的内存作为活动权重的磁盘缓存。昨天，很多人在另一个帖子里让unsloth/DeepSeek - R1 - GGUF的动态量化版本在游戏主机上运行起来了。我自己让DeepSeek - R1 - UD - Q2_K_XL版本在96GB内存+24GB显存的情况下，在1 - 2个标记/秒到2000 - 16000个上下文之间运行，并且通过实验上下文长度以及多达8个并发槽推理来提高总吞吐量。经过各种设置的实验，瓶颈显然是我的第5代x4 NVMe SSD卡，因为CPU使用率不超过约30%，GPU基本闲置，电源风扇甚至都没转。所以虽然速度慢，但不会让房间变热。所以与其花2000美元买GPU，不如花1500美元买扩展卡上的4个NVMe SSD来获得2TB的‘显存’，理论上最大顺序读取‘内存’带宽约为48GB/秒呢？这种更便宜的设置可能会为家庭主机上的大型混合专家模型（MoEs）提供更好的性价比。如果不用GPU，在游戏级主板上就可以让16条PCIe 5.0通道都用于NVMe驱动器。如果有人有快速读取IOPS的驱动器阵列，我很想听听能达到什么样的速度。我得去问问Level1Techs的Wendell了，哈哈……附言：在我看来，这个量化的R1 671B比任何精简模型玩具都要好。虽然速度慢且上下文有限，但对于许多应用来说，对家庭用户而言可能仍然是最好的选择。只需要弄清楚如何通过在助手提示中注入</think>来短路<think>Blah blah</think>内容，看看是否能在没有那些废话的情况下得到不错的结果，哈哈……

讨论总结

原帖分享在本地游戏设备（96GB内存，禁用3090TI GPU）上，通过特定设置运行DeepSeek R1 671B模型达到约2.13 tok/sec的推理速度等成果。评论者反应多样，部分对原帖表示肯定、赞赏，部分对原帖的速度、硬件配置、模型量化等方面提出质疑，还有许多人基于原帖内容进行提问、分享自己的类似经历或对硬件性能、模型运行等提出新的看法和建议。

主要观点

👍 原帖是本地Llama发布的优质内容。
- 支持理由：评论者认为这是“peak localLlama posting”。
- 反对声音：无。
🔥 原帖作者运行的并非完整的R1 671B模型。
- 正方观点：DefNattyBoii指出原帖作者使用的是2.51位动态量化（212GB）版本，与完整模型有差距。
- 反方观点：原帖未直接回应。
💡 利用RAID池可增加NVMe带宽。
- 解释：评论者针对原帖利用NVMe SSD操作的情况提出，认为创建NVMe驱动器的RAID池能增加带宽。
🤔 使用面向思维链的模型却不使用思维链是矛盾的。
- 解释：Firepal64提出这一观点，后续有其他人对Deepseek模型的选择、思维链相关内容展开讨论。
😕 原帖的设置占用整个系统但收获很少。
- 解释：有评论者质疑在每秒1 - 2个标记且思考开销大时，原帖设置适用的应用场景，认为该设置占用整个系统却收益甚微。

金句与有趣评论

“😂 Closed AI’s the tidy apartment. We’re the anarchist commune with a llama in the lobby. And honestly? I’d rather explain to my landlord why my server’s mining DOGE than let some Silicon Valley suit decide my prompts are “too spicy.””
- 亮点：原帖作者VoidAlchemy用生动有趣的比喻表达对Closed AI和自己这边状态的看法，同时表达对硅谷做法的抵触态度。
“🤔 You say that you run a full R1 671B model, but yet you pulled the 2.51bit dynamic quant(212GB). This is pretty far from running the full model, which is about 700 GB+, and will give you inferior results.”
- 亮点：评论者DefNattyBoii明确指出原帖作者运行的并非完整模型及可能产生的结果差异。
“👀 I know it’s not ideal, but if people are milking 2t/s from it.”
- 亮点：反映出对于从NVMe获取速度这一情况的一种看法。

情感分析

总体情感倾向较多元。部分评论者持积极肯定态度，如认为原帖是优质内容、对原帖成果表示赞赏；部分持质疑态度，对原帖中的模型运行速度、硬件配置合理性等方面提出疑问；还有一些人是好奇提问的态度，想要获取更多关于原帖技术操作的信息。主要分歧点在于对原帖所提技术方案的评价，可能原因是不同评论者的技术背景、硬件条件和对模型性能期望有所不同。

趋势与预测

新兴话题：可能会进一步探讨如何在不同硬件配置下优化模型运行速度，像DDR3运行模型的情况、无GPU时普通用户通过扩充设备提升速度等。
潜在影响：如果类似在本地设备上低成本运行模型的方案可行，可能促使更多家庭用户尝试本地运行大型模型，对模型的普及和硬件的选择产生影响。

详细内容：

《Reddit热议：在本地设备上运行DeepSeek R1 671B模型的探索与讨论》

在Reddit上，一篇关于在本地游戏设备上运行DeepSeek R1 671B模型的帖子引起了广泛关注。原帖作者表示，在禁用3090TI GPU、拥有96GB RAM的游戏设备上，通过特定设置，使用动态量化的完整R1 671B模型可以达到约2.13 tok/sec的推理速度。此帖获得了众多点赞和大量评论，引发了关于如何优化模型运行、硬件配置选择以及模型性能等方面的热烈讨论。

讨论的焦点主要集中在以下几个方面：

硬件配置与性能优化：有人分享了不同硬件配置下的测试结果，如拥有256GB RAM和快速NVMe SSD的服务器，以及双EPYC系统等。对于是否需要GPU、如何选择合适的内存和存储设备，大家各抒己见。
模型量化与性能比较：关于动态量化的效果，有人认为其在一定程度上保持了模型性能，同时减少了资源需求。但也有人对量化与未量化模型的差异提出了疑问。
应用场景与适用性：对于模型在不同场景下的表现和适用性，讨论者们看法不一。有人认为在特定需求下，较慢的推理速度仍可接受；而有人则认为对于实时性要求较高的任务，目前的性能难以满足。

有人表示：“作为一名在硅谷工作了10年的软件工程师，我亲身经历了技术行业的快速变革。在2015年，我所在的初创公司还在为基础设施烦恼，但到了2020年，我们已经完全依赖云服务。这种转变不仅提高了效率，还彻底改变了我们的工作方式和团队结构。”这一经历反映了技术发展对工作的巨大影响，也为讨论提供了更深入的视角。

在讨论中，存在一些共识。例如，大家普遍认为通过合理的硬件配置和优化设置，可以在一定程度上提高模型的运行效率。但对于模型的最优配置和应用场景，仍存在争议。

特别有见地的观点如，有人提出利用多个内存I/O控制器来获得更好的内存带宽，以及对不同量化方式的详细分析和比较。

总的来说，这次关于在本地设备上运行DeepSeek R1 671B模型的讨论，展示了Reddit用户对于技术探索的热情和深入思考，为进一步优化模型在本地的运行提供了丰富的思路和方向。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#

《Reddit热议：在本地设备上运行DeepSeek R1 671B模型的探索与讨论》#