原贴链接

无有效内容可翻译

讨论总结

这个讨论围绕着2个3090与NVLink连接时的本地最快推理选项这一主题展开。参与者分享了各自的测试经验、硬件配置、不同软件或技术在推理速度方面的表现,还提出了各种提升推理速度的建议,整体氛围积极,大家互相交流技术见解。

主要观点

  1. 👍 NVLink对推理速度帮助不大。
    • 支持理由:评论者以自己双3090设备的测试经验得出。
    • 反对声音:无。
  2. 🔥 vLLM在利用显卡链路和带宽方面优势明显。
    • 正方观点:评论者在Linux上运行vLLM时发现其在利用显卡链路和带宽方面表现最佳。
    • 反方观点:无。
  3. 💡 对于特定规模模型ExllamaV2可带来速度提升,但模型越小加速效果越不明显。
    • 解释:评论者根据自己的经验指出ExllamaV2在特定模型下的加速情况。
  4. 💡 多GPU不降低GPU计算时间,但可减少CPU计算时间从而加快速度。
    • 解释:通过在llama.cpp中分配层到两个GPU的测试情况得出。
  5. 💡 如果没有明确设置使用NVLink,那可能就没有在使用它。
    • 解释:根据相关知识和经验得出这一观点。

金句与有趣评论

  1. “😂 The nvlink won’t help much with inference speeds.”
    • 亮点:直接点明NVLink对推理速度的帮助不大,简洁有力。
  2. “🤔 I usually run vllm on Linux because it is currently the best at leveraging the link between the graphics cards and all available bandwidth.”
    • 亮点:明确指出vLLM在利用显卡链路和带宽方面的优势以及运行环境。
  3. “👀 If you have excess VRAM, use speculative decoding to get a 20 - 50% boost in inference speed”
    • 亮点:提供了一种提升推理速度的具体方法和条件。

情感分析

总体情感倾向积极,大家都在分享和交流技术相关的内容。主要分歧点较少,更多是在不同技术和配置在推理速度提升方面的差异。可能的原因是参与者都是对这个技术领域感兴趣的人,旨在互相交流经验和知识。

趋势与预测

  • 新兴话题:对不同硬件组合下更多软件或技术的性能探索。
  • 潜在影响:有助于提升相关领域技术人员对双3090与NVLink组合下推理速度优化的理解,推动硬件和软件在这方面的优化发展。

详细内容:

标题:关于 2×3090 与 NVLink 的本地推理速度的热门讨论

在 Reddit 上,一个关于“Fastest local inference options for 2 x 3090 with NVLink”的话题引发了众多用户的热烈讨论。该帖子获得了大量的关注,评论众多。主要讨论方向集中在 NVLink 对 2×3090 显卡在推理速度方面的影响,以及不同模型和框架下的性能表现。

讨论焦点与观点分析如下:

有人尝试了多种方案后指出,nvlink 对推理速度帮助不大。比如,exllama 虽能提高每秒生成的令牌数量,但在 gguf 生态系统方面存在局限;vllm 和 exllama2 在处理并行请求时表现较好。有人表示自己有一些效果不错的配置,愿意分享。

有用户对张量并行在 exllamav2 中的应用提出疑问,想了解它与 GPU 拆分相比是否能加速,对较小模型是否也有作用。

还有人好奇 nvlink 到底能带来多大的差异,比如在 8x 或 4x 插槽中运行 3090 显卡时的情况。

有人分享了自己的个人经历,称 vLLM 在 Linux 系统上运行效果出色,通过正确设置和使用 AWQ 量化能大幅提升性能,甚至会因功率过大导致电源问题,需要升级到 1500W 电源。有人认为关闭涡轮增压可解决功率问题。

有人通过测试发现,使用 vLLM 张量并行速度更快,通信速度在 GPU 间很重要,量化和双 GPU 情况下能较好平衡。

有用户提供链接供他人参考,如https://www.reddit.com/r/LocalLLaMA/comments/1f3htpl/exllamav2\_now\_with\_tensor\_parallelism/

有人分享了具体的测试数据,如不同设置下的令牌生成速度。

总体而言,关于 NVLink 对 2×3090 显卡推理速度的影响,讨论中观点各异,尚未达成完全一致。但这些丰富的讨论为大家深入了解这一技术问题提供了有价值的参考。