原贴链接

我在一堆旧的10GB英伟达P102 - 100(用于挖矿的GPU)上运行Deepseek,这些GPU通过PCIE 1.0 x1转接卡安装,分布在3台机器上,通过1GB局域网和防火墙连接。每个GPU花30美元购买(并非用于此目的,哈哈)。有趣的是,最困难的部分是Llama.cpp在将模型移到显存之前需要足够的CPU内存来加载模型,因此必须以Q2运行。当我有更多资源时将尝试以Q4再次运行。速度为惊人的3.6T/s。考虑到这个设置有诸多不利因素,其实已经相当不错了。如果你好奇的话,没有这些GPU,仅CPU服务器开始时大约为2.4T/s,但即使在1000个标记之后也下降到1.8T/s。网络上只能达到约30MB/s,但可能会尝试将所有设备升级到10G局域网,看看是否有影响。

讨论总结

原帖作者分享了在低价旧Nvidia P102 - 100 GPU等设备上运行Deepseek V3的情况,包括运行速度、遇到的问题等。评论者们提出了各种相关话题,如CPU运行时内存的影响、网络流量、设备供电、多机运行模型的扩展方法等,还有人表达了对这种低成本运行方式的认可,整体讨论充满技术交流氛围。

主要观点

  1. 👍 希望用即将到货的512gb内存运行CPU。
    • 支持理由:有足够内存可能有助于CPU运行相关程序。
    • 反对声音:无。
  2. 🔥 关于Llama.cpp内存问题,可能是rebar代码导致,可尝试禁用mmap。
    • 正方观点:评论者自身经验遇到类似情况是rebar代码问题。
    • 反方观点:无。
  3. 💡 在考虑升级网络到10G lan之前,可先进行特定的模型速度测试实验。
    • 解释:这样能更好判断网络升级的必要性。
  4. 💡 对在旧设备上运行Deepseek V3的成果表示认可。
    • 解释:尽管设备条件差,但运行速度尚可。
  5. 💡 认为在这样的设备规模和构建下速度可以接受。
    • 解释:考虑到设备的具体情况,当前速度还不错。

金句与有趣评论

  1. “😂 我有512gb的内存明天到货,我希望可以用它在CPU上运行。”
    • 亮点:引出了关于CPU运行与内存关系的讨论。
  2. “🤔 Some builds have done that. The last time I ran into it was with the rebar code. It took me a while to figure out it was the rebar code so I disabled rebar and I no longer needed to have as much system RAM as VRAM to load a model.”
    • 亮点:提供了可能解决Llama.cpp内存问题的思路。
  3. “👀 wow, that is not bad at all.”
    • 亮点:表达了对原帖成果的认可态度。
  4. “😎 There are so many post - apocalypse sci - fi stories where the only remaining knowledge from industrial society was a few moldy books hidden in the village elders’s hut.”
    • 亮点:从独特的后末日科幻角度看待现代技术下知识获取的便利性。
  5. “🤓 What are you using to spread a model across 3 computers?”
    • 亮点:引出了关于多机运行模型的技术交流。

情感分析

总体情感倾向是积极的。主要分歧点较少,大部分人都对原帖作者在旧设备上运行Deepseek的成果表示认可或者好奇。可能的原因是原帖的成果展示比较有趣,而且在技术爱好者的社区中,这种低成本实现运行的方式比较受关注。

趋势与预测

  • 新兴话题:关于运行Deepseek3达到特定精度和性能的硬件需求可能会引发后续讨论。
  • 潜在影响:如果能进一步探索出在低成本设备上高效运行类似Deepseek的方法,可能会对相关技术的推广和应用有积极影响,也可能影响人们对旧设备再利用的看法。

详细内容:

标题:在一堆旧硬件上运行 Deepseek V3 的神奇之旅

近日,Reddit 上一篇关于在旧硬件上运行 Deepseek V3 的帖子引起了广泛关注。帖子中,作者分享了自己在一堆老旧的 10GB Nvidia P102-100 显卡和 PCIE 1.0 x1 转接卡上运行 Deepseek V3 的经历,获得了众多点赞和大量评论。

主要内容是作者在不利条件下,如通过 1GB 局域网连接和穿越防火墙,成功运行了 Deepseek V3。最初速度为 3.6 T/s,升级到 10G 局域网后,在 3 台机器上运行达到 5.2T/s,单台机器上 P40 与 CPU 组合达到 3.1T/s。同时提到运行过程中的一些困难,如 Llama.cpp 需要足够的 CPU 内存来加载模型才能移动到 VRAM,还需在 Q4 尝试更多改进。

讨论焦点与观点分析:

  • 有人表示自己将有 512GB 内存到货,希望能在 CPU 上运行,有人对此表示期待。
  • 有人认为肯定能运行,但速度是个问题;也有人认为完全正确,速度可能会很慢。
  • 有人建议进行一些实验来测试网络速度对模型运行的影响。
  • 有人询问总共多少个 GPU,加载时间、能否通过 llama-server 持续访问等问题,作者一一进行了回答。
  • 有人好奇如何供电,作者表示功率消耗不大,真正用途是 hashcat,必要时会降低功率限制。
  • 有人认为速度在这种构建方式下已经不错,也有人好奇是否能观察到局域网流量峰值,以及可能的加速范围和各部分的性能占比。
  • 有人提到 Deepseek v3 用于复杂任务,Qwen 2.5 用于简单任务,并准备好维基百科备份。
  • 有人对能在多台机器上分布模型表示感兴趣,有人提供了相关链接。
  • 有人对所需硬件进行了讨论和估算。

在这场讨论中,大家各抒己见,既有对作者成果的肯定,也有对改进方向和相关技术问题的探讨。可以看出,在硬件和技术的探索道路上,大家充满了热情和好奇。