原贴链接

今天,我尝试在一个没有GPU的、24个虚拟CPU、192GB内存的服务器上运行DeepSeek R1 2.58 - 位量化版本。在pg512测试中,我达到了大约每秒11个词元的速度。同时,四个A40 GPU产生了大约每秒33个词元的速度。这让我思考一种可能的设置。对于我的个人需求,每秒11个词元似乎足够了。然而,对于像R1 Q8_0这样非常大的大语言模型,它需要700GB的显存,通常需要八个A100 GPU(H100更贵),并且还必须将一些层卸载到CPU。那种设置成本大约为177,840美元。相比之下,锐龙Threadripper PRO 7995WX成本约为11,500美元,1TB的内存约为2,400美元,所以总成本大约为14,000美元——大约便宜12倍。当然,推理速度会明显更慢,并且随着上下文窗口的增大性能可能会下降,但拥有一个个人系统仍然是可行的。我刚接触大语言模型,所以我很想听到任何额外的想法或建议。

讨论总结

原帖提出用7995WX处理器和1TB内存运行LLMs的设想,对比了这种方案与使用GPU运行的成本。评论者从不同角度进行讨论,包括技术分析如内存带宽是瓶颈、提出硬件替代方案、质疑成本合理性以及探讨运行模型的技术细节等,整体氛围理性且专业。

主要观点

  1. 👍 内存带宽是CPU/APU/NPU设置中的主要瓶颈
    • 支持理由:在这类设置中内存带宽会限制性能。
    • 反对声音:无。
  2. 🔥 7995WX在Threadrippers那一代中表现最佳
    • 正方观点:相比同代产品性能较好。
    • 反方观点:无。
  3. 💡 对原帖提到的128GB RDIMMs低价表示怀疑
    • 解释:自己购买时从未见过这么低的价格,还给出自己的计算依据。
  4. 💡 不支持使用1 TB系统内存搭配7995WX运行LLMs的想法
    • 解释:考虑更多上下文会出现问题,CPU接口目前不可行。
  5. 💡 建议使用Genoa或Turin以及1Tb ddr5
    • 解释:未详细阐述,只是提供一种替代方案。

金句与有趣评论

  1. “😂 So from my understanding it’s the memory bandwidth that is the main bottleneck in CPU/APU/NPU setups, so to optimize capacity and bandwidth of RAM it makes sense to utilize the RAM channels.”
    • 亮点:指出在相关设置中内存带宽这个关键瓶颈,及优化内存的思路。
  2. “🤔 This post is very informative and it indeed seems like 7995WX would be the best out of that generation’s Threadrippers.”
    • 亮点:肯定原帖的同时给出7995WX在同代产品中的性能评价。
  3. “👀 makistsa:Spending 15k for 4k context?”
    • 亮点:简洁地对原帖提到的性价比提出疑问。

情感分析

总体情感倾向比较理性中立。主要分歧点在于对原帖提出的硬件配置方案的看法,如是否支持使用1 TB系统内存搭配7995WX运行LLMs,以及对原帖中提到的硬件成本的质疑等。原因是大家从不同的技术角度和自身经验出发来考虑这个方案的可行性和性价比。

趋势与预测

  • 新兴话题:不同硬件组合在运行LLMs时的具体技术细节(如是否使用unsloth动态量化模型)可能会引发后续讨论。
  • 潜在影响:对LLMs在不同硬件配置下的性能优化和成本控制有一定的参考价值,有助于相关从业者或爱好者选择更合适的硬件方案。

详细内容:

《关于使用 7995WX 和 1TB 系统内存运行大型语言模型的热门讨论》

在 Reddit 上,有一个关于使用 Ryzen Threadripper PRO 7995WX 和 1TB 系统内存运行大型语言模型(LLMs)的热门帖子引起了大家的关注。该帖子获得了众多的点赞和大量的评论。原帖中,作者分享了自己在没有 GPU 的 24 vCPU、192 GB RAM 服务器上运行 DeepSeek R1 2.58 位量化版本的经历,指出在这种配置下速度约为 11 个令牌/秒,而四个 A40 GPUs 能达到约 33 个令牌/秒。作者认为,对于个人需求来说,11 个令牌/秒似乎足够,而搭建一个使用 7995WX 和 1TB 内存的系统约 14000 美元,比使用八块 A100 GPUs 等配置的 177840 美元要便宜很多,不过推理速度会慢很多,性能也可能随上下文窗口增大而受影响。文章提出的核心问题是这种相对廉价但性能受限的个人系统配置是否可行。

在讨论中,主要观点呈现多样化。有人指出在 CPU/APU/NPU 配置中,内存带宽是主要瓶颈,优化内存容量和带宽要合理利用内存通道。比如,有用户分享道:“内存通道意味着同一时间 CPU 能通过多少条高速公路与 RAM 交流。高速公路越多,速度总和越快。7995x 支持 8 通道,而 AMD 服务器 CPU EPUC Genoa 支持 12 通道。所以能获得更多的内存带宽。”还有用户表示:“你实际上在 EPYC Zen 5 的单个 CCD 吞吐量方面不受内存带宽的限制!AMD 在 IO 级别做了很大的改变,将 Infinity Fabric 链路宽度翻倍,并将每个 IF 链路能携带的数据量从 16b 增加到 32b/周期。”也有人提到因为线程撕裂者的单核性能比 EPYC 高 40%。

在个人经历和案例分享方面,有用户称自己有一个具有 2 个 64C Epyc 和 1TB 内存的系统,在尝试 DeepSeek 7B 蒸馏版与 Ollama 时,速度非常慢,并希望有人能解释如何设置以提高速度。

有趣或引发思考的观点也不少。有人提到实际上,每个通道的内存棒数量越多,时钟速度就越慢,在规划这些系统时需要在速度和容量之间找到平衡。

总的来说,关于使用 7995WX 和 1TB 内存运行 LLMs 的讨论充满了各种见解和观点,既有对技术细节的深入探讨,也有个人实践的分享和反思,为大家提供了丰富的思考素材。