原贴链接

先别急着去买5090TI(要是你能找到的话,哈哈)!我刚刚在一台96GB内存的游戏主机上禁用3090TI GPU后,使用完整的R1 671B模型(不是精简版)的动态量化,在2000个上下文的情况下实现了约2.13个标记/秒的推理速度。秘诀就是除了键值缓存(kv cache)之外不在内存中加载任何东西,让llama.cpp使用其默认行为从快速的NVMe SSD上进行内存映射(mmap)模型文件。系统其余的内存作为活动权重的磁盘缓存。昨天,很多人在另一个帖子里让unsloth/DeepSeek - R1 - GGUF的动态量化版本在游戏主机上运行起来了。我自己让DeepSeek - R1 - UD - Q2_K_XL版本在96GB内存+24GB显存的情况下,在1 - 2个标记/秒到2000 - 16000个上下文之间运行,并且通过实验上下文长度以及多达8个并发槽推理来提高总吞吐量。经过各种设置的实验,瓶颈显然是我的第5代x4 NVMe SSD卡,因为CPU使用率不超过约30%,GPU基本闲置,电源风扇甚至都没转。所以虽然速度慢,但不会让房间变热。所以与其花2000美元买GPU,不如花1500美元买扩展卡上的4个NVMe SSD来获得2TB的‘显存’,理论上最大顺序读取‘内存’带宽约为48GB/秒呢?这种更便宜的设置可能会为家庭主机上的大型混合专家模型(MoEs)提供更好的性价比。如果不用GPU,在游戏级主板上就可以让16条PCIe 5.0通道都用于NVMe驱动器。如果有人有快速读取IOPS的驱动器阵列,我很想听听能达到什么样的速度。我得去问问Level1Techs的Wendell了,哈哈……附言:在我看来,这个量化的R1 671B比任何精简模型玩具都要好。虽然速度慢且上下文有限,但对于许多应用来说,对家庭用户而言可能仍然是最好的选择。只需要弄清楚如何通过在助手提示中注入</think>来短路<think>Blah blah</think>内容,看看是否能在没有那些废话的情况下得到不错的结果,哈哈……

讨论总结

原帖分享在本地游戏设备(96GB内存,禁用3090TI GPU)上,通过特定设置运行DeepSeek R1 671B模型达到约2.13 tok/sec的推理速度等成果。评论者反应多样,部分对原帖表示肯定、赞赏,部分对原帖的速度、硬件配置、模型量化等方面提出质疑,还有许多人基于原帖内容进行提问、分享自己的类似经历或对硬件性能、模型运行等提出新的看法和建议。

主要观点

  1. 👍 原帖是本地Llama发布的优质内容。
    • 支持理由:评论者认为这是“peak localLlama posting”。
    • 反对声音:无。
  2. 🔥 原帖作者运行的并非完整的R1 671B模型。
    • 正方观点:DefNattyBoii指出原帖作者使用的是2.51位动态量化(212GB)版本,与完整模型有差距。
    • 反方观点:原帖未直接回应。
  3. 💡 利用RAID池可增加NVMe带宽。
    • 解释:评论者针对原帖利用NVMe SSD操作的情况提出,认为创建NVMe驱动器的RAID池能增加带宽。
  4. 🤔 使用面向思维链的模型却不使用思维链是矛盾的。
    • 解释:Firepal64提出这一观点,后续有其他人对Deepseek模型的选择、思维链相关内容展开讨论。
  5. 😕 原帖的设置占用整个系统但收获很少。
    • 解释:有评论者质疑在每秒1 - 2个标记且思考开销大时,原帖设置适用的应用场景,认为该设置占用整个系统却收益甚微。

金句与有趣评论

  1. “😂 Closed AI’s the tidy apartment. We’re the anarchist commune with a llama in the lobby. And honestly? I’d rather explain to my landlord why my server’s mining DOGE than let some Silicon Valley suit decide my prompts are “too spicy.””
    • 亮点:原帖作者VoidAlchemy用生动有趣的比喻表达对Closed AI和自己这边状态的看法,同时表达对硅谷做法的抵触态度。
  2. “🤔 You say that you run a full R1 671B model, but yet you pulled the 2.51bit dynamic quant(212GB). This is pretty far from running the full model, which is about 700 GB+, and will give you inferior results.”
    • 亮点:评论者DefNattyBoii明确指出原帖作者运行的并非完整模型及可能产生的结果差异。
  3. “👀 I know it’s not ideal, but if people are milking 2t/s from it.”
    • 亮点:反映出对于从NVMe获取速度这一情况的一种看法。

情感分析

总体情感倾向较多元。部分评论者持积极肯定态度,如认为原帖是优质内容、对原帖成果表示赞赏;部分持质疑态度,对原帖中的模型运行速度、硬件配置合理性等方面提出疑问;还有一些人是好奇提问的态度,想要获取更多关于原帖技术操作的信息。主要分歧点在于对原帖所提技术方案的评价,可能原因是不同评论者的技术背景、硬件条件和对模型性能期望有所不同。

趋势与预测

  • 新兴话题:可能会进一步探讨如何在不同硬件配置下优化模型运行速度,像DDR3运行模型的情况、无GPU时普通用户通过扩充设备提升速度等。
  • 潜在影响:如果类似在本地设备上低成本运行模型的方案可行,可能促使更多家庭用户尝试本地运行大型模型,对模型的普及和硬件的选择产生影响。

详细内容:

《Reddit热议:在本地设备上运行DeepSeek R1 671B模型的探索与讨论》

在Reddit上,一篇关于在本地游戏设备上运行DeepSeek R1 671B模型的帖子引起了广泛关注。原帖作者表示,在禁用3090TI GPU、拥有96GB RAM的游戏设备上,通过特定设置,使用动态量化的完整R1 671B模型可以达到约2.13 tok/sec的推理速度。此帖获得了众多点赞和大量评论,引发了关于如何优化模型运行、硬件配置选择以及模型性能等方面的热烈讨论。

讨论的焦点主要集中在以下几个方面:

  1. 硬件配置与性能优化:有人分享了不同硬件配置下的测试结果,如拥有256GB RAM和快速NVMe SSD的服务器,以及双EPYC系统等。对于是否需要GPU、如何选择合适的内存和存储设备,大家各抒己见。
  2. 模型量化与性能比较:关于动态量化的效果,有人认为其在一定程度上保持了模型性能,同时减少了资源需求。但也有人对量化与未量化模型的差异提出了疑问。
  3. 应用场景与适用性:对于模型在不同场景下的表现和适用性,讨论者们看法不一。有人认为在特定需求下,较慢的推理速度仍可接受;而有人则认为对于实时性要求较高的任务,目前的性能难以满足。

有人表示:“作为一名在硅谷工作了10年的软件工程师,我亲身经历了技术行业的快速变革。在2015年,我所在的初创公司还在为基础设施烦恼,但到了2020年,我们已经完全依赖云服务。这种转变不仅提高了效率,还彻底改变了我们的工作方式和团队结构。”这一经历反映了技术发展对工作的巨大影响,也为讨论提供了更深入的视角。

在讨论中,存在一些共识。例如,大家普遍认为通过合理的硬件配置和优化设置,可以在一定程度上提高模型的运行效率。但对于模型的最优配置和应用场景,仍存在争议。

特别有见地的观点如,有人提出利用多个内存I/O控制器来获得更好的内存带宽,以及对不同量化方式的详细分析和比较。

总的来说,这次关于在本地设备上运行DeepSeek R1 671B模型的讨论,展示了Reddit用户对于技术探索的热情和深入思考,为进一步优化模型在本地的运行提供了丰富的思路和方向。