原贴链接

参考链接:https://himeshp.blogspot.com/2025/03/vllm-performance -benchmarks-4x-rtx-3090.html

讨论总结

原帖讲述NVLink对双RTX 3090推理性能的提升,评论者们从多方面展开讨论。包括原帖未给出系统规格的质疑、不同设备上NVLink对性能影响不同、NVLink桥价格及获取难度、对更多模型测试的期待、主板与GPU连接对性能的影响等,整体氛围偏向技术交流与探讨。

主要观点

  1. 👍 原帖未给出系统规格可能影响结果
    • 支持理由:很多时候问题出在细节上
    • 反对声音:无
  2. 🔥 自己按照原帖方法测试,NVLink会使推理速度变慢
    • 正方观点:不同设备不同测试结果,如RTX 5000 32GB ADA和RTX A6000 48GB Ampere测试
    • 反方观点:原作者重新测试结果不变,但原作者使用x8 risers可能是结果不同的原因
  3. 💡 NVLink桥价格过高难以获取
    • 支持理由:现在低于300美元都找不到
    • 反对声音:无
  4. 💡 Zyj使用NVLINK连接RTX 3090未发现显著性能提升
    • 支持理由:自身测试经历
    • 反对声音:getfitdotus指出使用特定技术会有性能提升
  5. 💡 建议用拔掉nvlink替代使用NCCL_P2P_DISABLE进行测试
    • 支持理由:NCCL_P2P_DISABLE会禁用多种通信方式且禁用p2p会降低性能
    • 反对声音:无

金句与有趣评论

  1. “😂 第一是你没有给出你的系统规格,这很不幸,因为很多时候我们发现问题就出在细节上。”
    • 亮点:指出原帖未给出系统规格的关键问题
  2. “🤔 我无法重现你的发现。我有一个RTX 5000 32GB ADA和一对RTX A6000 48GB Ampere,我使用这两个A6000按照你的方法并使用PNY NVLink进行测试,结果是使用NVLink时推理速度大约每秒慢1个token。”
    • 亮点:用自己的测试结果反驳原帖观点
  3. “👀 Is nvlink bridge for 3090s even obtainable anymore? I can’t find it under $300.”
    • 亮点:反映NVLink桥价格过高难以获取的现状
  4. “😎 NCCL_P2P_DISABLE Does more than just disable the nvlink bridge.”
    • 亮点:说明NCCL_P2P_DISABLE的影响不止于禁用nvlink桥接
  5. “🤨 我的系统是Supermicro M12SWA - TF主板上的Ryzen Threadripper Pro 5995WX,配备128GB DDR4 3200内存。所有GPU都插入已验证为以x16模式工作的PCIe 4.0 x16插槽。”
    • 亮点:提供了详细的系统规格信息

情感分析

总体情感倾向较为理性中立。主要分歧点在于NVLink对性能的提升效果,原因是不同设备、不同测试环境、不同使用场景(如推理、训练、不同模型大小等)下NVLink的表现不同。

趋势与预测

  • 新兴话题:在不同主板上,如Epyc主板,GPU连接方式对NVLink性能影响以及性价比的比较。
  • 潜在影响:对硬件爱好者和从事相关技术研究的人员在设备选择、性能优化方面提供更多参考依据。

详细内容:

标题:关于 NVLINK 提升双 RTX 3090 推理性能的热门讨论

在 Reddit 上,一篇题为“NVLINK improves dual RTX 3090 inference performance by nearly 50%”的帖子引发了热烈讨论。该帖子包含链接 https://himeshp.blogspot.com/2025/03/vllm-performance-benchmarks-4x-rtx-3090.html ,获得了众多关注,评论区更是热闹非凡。

讨论的焦点主要集中在 NVLINK 对 RTX 3090 性能提升的实际效果和影响因素上。有人认为,由于 3090 不支持 FP8,使用 FP8 量化可能无法带来速度提升。但也有人指出,vLLM 使用 Marlin 内核在不支持的硬件上进行 FP8 计算,能显著提升性能且不影响质量。

有用户分享道:“我有一个 RTX 5000 32GB ADA 和一对 RTX A6000 48GB Ampere,按照特定方法使用 PNY NVLink 进行测试,结果推理速度约每秒慢 1 个令牌。我的系统是 Ryzen Threadripper Pro 5995WX 搭配 Supermicro M12SWA - TF 主板和 128GB 的 DDR4 3200。所有 GPU 都插入经确认工作在 x16 的 PCIe 4.0 x16 插槽。”

还有用户提到:“我的配置是 Threadripper 3960x、MSI TRX40 Pro 10g、128gb 四通道 ddr4 3200 Ram 以及混合的 slim sas 和直接 PCIe gen 4 x8 转接器。数据在博客文章中。我重新进行了实验,物理移除 NVLINK 并使用未量化的模型,结果相同。”

关于 NVLINK 是否能真正提升性能,观点存在分歧。有人认为在特定配置下,如使用 x8 转接器,NVLINK 能显著改善性能;也有人表示即使连接了 NVLINK,在自己的系统中(PCIe 4.0 x8 插槽)并未察觉到明显的性能提升。

有人提出应测试更多模型,还有人探讨了 NVLINK 桥的获取难度和价格上涨的问题。也有观点认为,如果无法找到 NVLINK 桥,可以使用特定的开源模块,但存在一些限制。

总的来说,这场讨论展现了大家对 NVLINK 技术的深入思考和不同见解,为相关研究和应用提供了丰富的参考。但关于其性能提升的效果和适用场景,仍需进一步的探索和实践来明确。