原贴链接

我在一堆旧的10GB英伟达P102 - 100（用于挖矿的GPU）上运行Deepseek，这些GPU通过PCIE 1.0 x1转接卡安装，分布在3台机器上，通过1GB局域网和防火墙连接。每个GPU花30美元购买（并非用于此目的，哈哈）。有趣的是，最困难的部分是Llama.cpp在将模型移到显存之前需要足够的CPU内存来加载模型，因此必须以Q2运行。当我有更多资源时将尝试以Q4再次运行。速度为惊人的3.6T/s。考虑到这个设置有诸多不利因素，其实已经相当不错了。如果你好奇的话，没有这些GPU，仅CPU服务器开始时大约为2.4T/s，但即使在1000个标记之后也下降到1.8T/s。网络上只能达到约30MB/s，但可能会尝试将所有设备升级到10G局域网，看看是否有影响。

讨论总结

原帖作者分享了在低价旧Nvidia P102 - 100 GPU等设备上运行Deepseek V3的情况，包括运行速度、遇到的问题等。评论者们提出了各种相关话题，如CPU运行时内存的影响、网络流量、设备供电、多机运行模型的扩展方法等，还有人表达了对这种低成本运行方式的认可，整体讨论充满技术交流氛围。

主要观点

👍 希望用即将到货的512gb内存运行CPU。
- 支持理由：有足够内存可能有助于CPU运行相关程序。
- 反对声音：无。
🔥 关于Llama.cpp内存问题，可能是rebar代码导致，可尝试禁用mmap。
- 正方观点：评论者自身经验遇到类似情况是rebar代码问题。
- 反方观点：无。
💡 在考虑升级网络到10G lan之前，可先进行特定的模型速度测试实验。
- 解释：这样能更好判断网络升级的必要性。
💡 对在旧设备上运行Deepseek V3的成果表示认可。
- 解释：尽管设备条件差，但运行速度尚可。
💡 认为在这样的设备规模和构建下速度可以接受。
- 解释：考虑到设备的具体情况，当前速度还不错。

金句与有趣评论

“😂 我有512gb的内存明天到货，我希望可以用它在CPU上运行。”
- 亮点：引出了关于CPU运行与内存关系的讨论。
“🤔 Some builds have done that. The last time I ran into it was with the rebar code. It took me a while to figure out it was the rebar code so I disabled rebar and I no longer needed to have as much system RAM as VRAM to load a model.”
- 亮点：提供了可能解决Llama.cpp内存问题的思路。
“👀 wow, that is not bad at all.”
- 亮点：表达了对原帖成果的认可态度。
“😎 There are so many post - apocalypse sci - fi stories where the only remaining knowledge from industrial society was a few moldy books hidden in the village elders’s hut.”
- 亮点：从独特的后末日科幻角度看待现代技术下知识获取的便利性。
“🤓 What are you using to spread a model across 3 computers?”
- 亮点：引出了关于多机运行模型的技术交流。

情感分析

总体情感倾向是积极的。主要分歧点较少，大部分人都对原帖作者在旧设备上运行Deepseek的成果表示认可或者好奇。可能的原因是原帖的成果展示比较有趣，而且在技术爱好者的社区中，这种低成本实现运行的方式比较受关注。

趋势与预测

新兴话题：关于运行Deepseek3达到特定精度和性能的硬件需求可能会引发后续讨论。
潜在影响：如果能进一步探索出在低成本设备上高效运行类似Deepseek的方法，可能会对相关技术的推广和应用有积极影响，也可能影响人们对旧设备再利用的看法。

详细内容：

标题：在一堆旧硬件上运行 Deepseek V3 的神奇之旅

近日，Reddit 上一篇关于在旧硬件上运行 Deepseek V3 的帖子引起了广泛关注。帖子中，作者分享了自己在一堆老旧的 10GB Nvidia P102-100 显卡和 PCIE 1.0 x1 转接卡上运行 Deepseek V3 的经历，获得了众多点赞和大量评论。

主要内容是作者在不利条件下，如通过 1GB 局域网连接和穿越防火墙，成功运行了 Deepseek V3。最初速度为 3.6 T/s，升级到 10G 局域网后，在 3 台机器上运行达到 5.2T/s，单台机器上 P40 与 CPU 组合达到 3.1T/s。同时提到运行过程中的一些困难，如 Llama.cpp 需要足够的 CPU 内存来加载模型才能移动到 VRAM，还需在 Q4 尝试更多改进。

讨论焦点与观点分析：

有人表示自己将有 512GB 内存到货，希望能在 CPU 上运行，有人对此表示期待。
有人认为肯定能运行，但速度是个问题；也有人认为完全正确，速度可能会很慢。
有人建议进行一些实验来测试网络速度对模型运行的影响。
有人询问总共多少个 GPU，加载时间、能否通过 llama-server 持续访问等问题，作者一一进行了回答。
有人好奇如何供电，作者表示功率消耗不大，真正用途是 hashcat，必要时会降低功率限制。
有人认为速度在这种构建方式下已经不错，也有人好奇是否能观察到局域网流量峰值，以及可能的加速范围和各部分的性能占比。
有人提到 Deepseek v3 用于复杂任务，Qwen 2.5 用于简单任务，并准备好维基百科备份。
有人对能在多台机器上分布模型表示感兴趣，有人提供了相关链接。
有人对所需硬件进行了讨论和估算。

在这场讨论中，大家各抒己见，既有对作者成果的肯定，也有对改进方向和相关技术问题的探讨。可以看出，在硬件和技术的探索道路上，大家充满了热情和好奇。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#