原贴链接

我正在考虑在24块RX 7900XTX上运行DeepSeek R1。我每个节点可以使用8块GPU，共3个节点。这可以让注意力头分布在8块GPU上，实现3倍的管道并行。我可以使用无限带宽（Infiniband）或者100G以太网用于管道并行，但这是必要的吗？我需要多少带宽呢？PCIE 4.0对于一个678B模型的张量并行来说是否足够？

讨论总结

原帖围绕在特定硬件配置下运行deepseek r1时，张量并行和流水线并行所需的带宽展开提问。评论者们的回应包括给出硬件配置方面的建议，如每个节点使用GPU的数量和主板相关设置，但在pcie接口相关问题上产生争议，最后有评论者承认理解错误。还有人指出推理场景下不需要太多带宽，也有评论者对一些提出的带宽数值表示疑问，同时存在表示自己不确定答案的评论者，整体讨论热度较低。

主要观点

👍 每个节点可在特定主板上使用12个rx 7900xtx并进行插槽拆分。
- 支持理由：评论者fraschm98根据自身知识给出建议。
- 反对声音：后续其他评论者指出存在问题。
🔥 pcie gen 5是向后兼容gen 4的，可通过bifurcation操作拆分pcie接口。
- 正方观点：fraschm98提出此观点。
- 反方观点：其他评论者指出存在理解错误，如实际操作需要昂贵的pcie开关芯片且不能简单创造更多通道。
💡 推理场景下不需要太多带宽。
- 解释：No_Afternoon_4260根据经验判断。
💡 对8路张量并行在fp8下50gb/s +的带宽需求提出疑问。
- 解释：LeptinGhrelin对该数值的得出依据表示疑惑。
💡 对原帖所提关于带宽需求的问题没有确切认知。
- 解释：部分评论者表示不确定。

金句与有趣评论

“🤔 What? pcie gen 5 is backwards compatible to gen 4. 1 pcie gen 5 x16 = 2x pcie gen 4 x16.”
- 亮点：这是fraschm98提出的关于pcie兼容性的观点，是争论的起点。
“👀 I’m an electrical engineer, I’ve worked with PCI - E interfaces. In gen 5 the MT is higher, but the lanes, which are parallel. Is not. It is the difference between a series bus and a parallel bus. It cannot be done.”
- 亮点：LeptinGhrelin以自身专业背景反驳关于pcie接口操作的观点。
“😂 Reddit formatting for me sucks ass, damn you’re right. I stand corrected, I misunderstood how that worked then.”
- 亮点：fraschm98承认自己理解错误，同时吐槽Reddit格式。
“😉 You really don’t need that much bandwidth.”
- 亮点：No_Afternoon_4260直接指出推理场景下带宽需求情况。
“🤔 Wouldn’t 8 way tensor parallelism @ fp8 be 50gb/s+?”
- 亮点：LeptinGhrelin提出对特定情况下带宽数值的疑问。

情感分析

总体情感倾向比较中立，主要分歧点在于pcie接口相关的操作以及带宽需求数值的确定。可能的原因是不同评论者的专业背景和知识储备不同，对硬件知识的理解和经验存在差异。

趋势与预测

新兴话题：可能会进一步探讨不同后端对带宽需求的影响。
潜在影响：如果后续能明确带宽需求，对于在类似硬件配置下运行模型的用户有参考价值，有助于优化硬件资源分配。

详细内容：

标题：关于张量并行与流水线并行所需带宽的热门讨论

在 Reddit 上，一则关于“张量并行与流水线并行所需带宽”的帖子引起了众多关注。该帖子由用户发起，称正考虑在 24 个 rx 7900xtxs 上运行 deepseek r1，可配置 8 个 GPU 每节点和 3 个节点，以便在 8 个 GPU 上分配注意力头并实现 3 倍流水线并行。但对于是否需要使用 infiniband 或 100g 以太网进行流水线并行，以及所需带宽是多少，尤其是对于 PCIE 4.0 是否足以支持 678B 模型的张量并行等问题，存在诸多疑问。此帖获得了大量的评论和讨论。

讨论焦点与观点分析：有人指出可以在特定主板上每节点配置 12 个 rx 7900xtx，将 x16 （PCIE 第 5 代）拆分使用，并使用最后一个接口连接 200g 以太网。但也有人认为 7900 xt 只接受 PCIE 4.0，拆分无法解决问题。还有人认为 PCIE 第 5 代的 x8 速度等同于 PCIE 4.0 的 x16，而有人反驳称不能将 x8 转换为 x16，因为这涉及到总线类型的差异。之后又有人提出可以通过使用昂贵的 PCIE 交换芯片来解决，但也有人认为这并不像想象中那样可行。

对于是用于推理还是训练的问题，有人回答是推理。而对于所需带宽的计算，也存在不同的看法。有人认为不需要那么多带宽，有人则通过 Tensorrt - LLM 计算出较高的带宽需求。

总的来说，这场讨论中，关于硬件配置和带宽需求的观点各异，既有技术层面的深入探讨，也有对成本和实际应用的考量。但目前尚未形成统一的结论，仍有待进一步的交流和研究。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#