嗨,我在不同机器(每台有1 - 2个GPU)上大约有12个GPU(从RTX 2080到3090),大多数是Windows主机。我想知道是否有可能将DeepSeek 671b(不是分布式或量化版本)分布在这些主机上运行。有没有人成功做过类似的事情?
讨论总结
这个讨论围绕在多台主机(大多为Windows系统且GPU从RTX 2080到3090不等)上分布式运行DeepSeek 671b(非分布式或量化版本)展开。评论者们分享了自己的运行经验,如在特定设备组合上运行DeepSeek的情况,还针对运行速度、硬件配置(像显存不足的情况)等方面进行了分析,并给出了如vllm、ray系统、exo等多种可能的解决方案,对不同方案的可行性和速度也有所讨论,整体充满技术探讨氛围。
主要观点
- 👍 曾在特定设备组合上运行DeepSeek并给出速度对比和加载模型耗时情况
- 支持理由:分享实际运行经验,对他人有参考价值。
- 反对声音:无。
- 🔥 llama.cpp支持集群推理但速度慢
- 正方观点:有运行实例表明存在速度慢的情况。
- 反方观点:有人认为分布式应该要快。
- 💡 原帖中的12块GPU显存不足以运行非量化的R1,需要运行量化版本
- 支持理由:评论者以自己的运行情况为依据。
- 反对声音:无。
- 💡 可以使用exo轻松进行分布式推理
- 支持理由:直接给出肯定答复。
- 反对声音:无。
- 💡 Vllm能够实现DeepSeek 671b的分布式运行且近期在DS - R1上有速度提升
- 支持理由:给出可操作的步骤并提及速度提升情况。
- 反对声音:无。
金句与有趣评论
- “😂 我在2个装满P102 - 100的矿机(均为1倍转接卡)和一个有10个P40的服务器上运行过真正的DeepSeek。”
- 亮点:详细描述运行DeepSeek的设备情况。
- “🤔 llama.cpp supports that kind of clustered inference, though it’s quite slow because it has to copy inference state from one server to the other for each server in the pipeline, for every token generated.”
- 亮点:对llama.cpp集群推理慢的原因给出解释。
- “👀 你可以使用exo来运行分布式推理相当轻松。”
- 亮点:直接给出关于分布式推理的解决方案。
- “😂 然而,与在单台Mac上运行模型相比,它的运行速度较慢。”
- 亮点:指出Exo在特定情况下运行速度慢的问题。
- “🤔 Vllm can do it and recently had some decent speed improvements for DS - R1.”
- 亮点:强调Vllm在DS - R1上的速度提升。
情感分析
[总体情感倾向为积极探讨,主要分歧点在于对不同技术方案的看法(如llama.cpp的速度问题)以及对某些硬件能否满足运行要求(如原帖12块GPU显存是否足够),原因是大家从不同的运行经验和技术角度出发来探讨如何分布式运行DeepSeek 671b。]
趋势与预测
- 新兴话题:[对于vllm和ray系统在分布式运行DeepSeek 671b上的更多实际应用效果可能会引发后续讨论。]
- 潜在影响:[如果找到更高效的分布式运行方式,可能会对相关技术领域的模型运行效率提升有积极影响。]
详细内容:
标题:关于分布式 DeepSeek R1 推理的热门讨论
在 Reddit 上,一则有关分布式 DeepSeek R1 推理的帖子引发了众多关注,获得了大量的点赞和众多评论。原帖中,作者拥有分布在不同机器中的约 12 块 GPU(从 RTX 2080 到 3090),大多为 Windows 主机,询问是否能在这些主机上分布式运行 DeepSeek 671b(非分布式或量化版本)。这一话题引发了广泛而深入的讨论。
讨论焦点与观点分析: 有人分享自己在 2 台装满 p102-100 的挖矿机和一台带有 10 个 p40 的服务器上运行真实 DeepSeek 的经历,称速度在网络 GPU 上为 5T/s,而在仅 p40 和 CPU 上为 3T/s,但加载模型需要一小时。 有人提到 llama.cpp 支持这种集群推理,但速度较慢,因为对于生成的每个令牌,推理状态都要从一个服务器复制到另一个服务器。 还有人对推理状态的大小和所需的网络速度进行了讨论和估算。有人认为对于大多数较小的模型,推理状态并非像人们想象的那样大,并提供了相关讨论的链接。 有人成功地以这种方式运行了 R1,详细介绍了自己的硬件组合和推理速度。
讨论中的共识在于大家都在探讨如何实现更高效的分布式推理以及所需的硬件和网络条件。
特别有见地的观点如有人详细说明了不同硬件配置下的推理情况,为其他人提供了宝贵的参考。
总之,这次关于分布式 DeepSeek R1 推理的讨论,为相关技术的探索和应用提供了丰富的思路和经验。
感谢您的耐心阅读!来选个表情,或者留个评论吧!