原贴链接

这是2x RTX 3090 + Threadripper 3970X +…和这篇紧急情况帖子（当时GPU无法工作，后来发现是相当愚蠢的问题）的后续。构建的照片将在第一条评论中给出。当然，这与人们在这里制作和发布的惊人构建无法相比，但可能更容易实现。硬件变化不大，只是买了2个RTX 3090 Turbo双槽显卡和第三个电源。PCIe插槽使用情况现在是：x16 RTX 3090 Turbo、x8 RTX 3090 Turbo、x16 PCIe转接电缆 - > RTX 3090、x8 RTX 3090（它是3槽的，所以必须放在这里以免遮挡插槽 - 不过我可以互换上面插槽中的任何东西）。第三个电源是临时的，在这个小组的Reddit用户的帮助下，我发现有一个电源电缆适配器，可以让我的BeQuiet! Straight Power 1500W的2个电源每个都能支持3个GPU。我还没有为我的公司需求找到性能最佳的LLM + RAG + PDF提取组合，所以这次没有太多基准测试（如果评论中有具体要求我会尝试去做）。#params B = 十亿；Size G = GiB（1024 * 1024 * 1024字节）；TP = 张量并行；tps = 每秒令牌数。给出了Qwen2.5和Mistral Large模型在不同参数、大小、量化、后端、是否张量并行情况下的每秒令牌数。不带张量并行时每秒令牌数大致相同（这里exllama2量化稍大所以有劣势），但与普通llama.cpp实现相比，张量并行表现出色。当然，我本可以将更小的量化放入更少的GPU中以获得更多每秒令牌数，但我只是想检查它们拆分时的工作情况。nvtop显示在层拆分推理期间PCIe传输为1 kB/s量级，但在进行张量并行时变为200 kB/s量级。在层拆分模型推理期间每个GPU负载约为25%，在张量并行期间约为50%。推理即使在张量并行时也不需要NVLink。升级期间的经验教训：如果有东西不工作，那就是某些电缆的问题；张量并行很好，exllama2用于实现它也很好。

讨论总结

原帖发布了4x RTX 3090 + Threadripper 3970X + 256 GB RAM的LLM推理基准测试结果。评论者们的讨论内容丰富多样，有对原帖分享表示感谢和认可的，也有提出如进行更多PCIe节流测试、增加推测性解码测试等建议的，还涉及到对LLM相关技术组件特性的讨论、硬件设备相关的使用体验分享以及一些疑惑的提出，整体讨论氛围积极，大家各抒己见。

主要观点

👍 对原帖分享表示感谢并认可其内容
- 支持理由：原帖的基准测试结果以及硬件配置等内容对评论者有一定的参考价值，并且花费精力做测试并分享值得感谢。
- 反对声音：无。
🔥 应增加推测性解码测试以获取性能提升
- 正方观点：有助于观察性能提升，部分模型可提升性能。
- 反方观点：无。
💡 PCIe节流测试对张量并行有影响
- 支持理由：隔离单个变量（PCIe通道）的测试有助于研究对张量并行的影响。
- 反对声音：有人认为即使PCIe 1.0影响也不大。
💪 exllama未实现nvlink不存在这方面影响
- 解释：exllama本身就未实现nvlink，所以不存在这方面的影响。
🤔 根据提示评估速度决定是否升级硬件
- 解释：如从两张3090显卡升级到四张，若提示评估速度慢则不打算升级。

金句与有趣评论

“😂 kmouratidis：I would love to see someone try. It’s not that I don’t trust nvtop and other benchmarks I’ve seen… It’s just that there is no better test than only isolating exactly one variable (e.g. PCIe lanes).”
- 亮点：强调了隔离单个变量进行测试的重要性。
“🤔 a_beautiful_rhind：exllama never implemented nvlink. Hence it won’t make a difference there, it’s never enabled.”
- 亮点：明确指出exllama在nvlink方面的情况。
“👀 mgr2019x：Thanks for sharing. Do you mind posting prompt eval t/s? That’s what i care about most. "
- 亮点：表明评论者最关心提示评估每秒标记数。

情感分析

总体情感倾向是积极的。主要分歧点在于部分硬件和技术方面观点的不同，如PCIe通道对性能影响程度、不同软件在不同场景下的优劣等。可能的原因是评论者们各自的设备使用经验、技术理解深度不同。

趋势与预测

新兴话题：如不同软件在不同请求压力场景下的性能表现可能会引发后续讨论。
潜在影响：对LLM推理在硬件选择、优化设置等方面有一定的参考价值，有助于相关领域人员优化硬件配置和提高性能。

详细内容：

标题：关于硬件配置与 LLM 推理性能的热门讨论

在 Reddit 上，一篇题为“4x RTX 3090 + Threadripper 3970X + 256 GB RAM LLM 推理基准测试”的帖子引起了广泛关注。此帖获得了众多点赞和大量评论。

原帖主要分享了作者对硬件配置的升级，包括购买额外的 RTX 3090 显卡和第三个电源供应单元（PSU），并展示了一系列 LLM 模型的推理性能测试结果。

帖子引发了多方面的热烈讨论，包括 PCIe 带宽限制对性能的影响、不同模型的推理速度比较、张量并行（tensor parallel）的优势，以及如何优化硬件配置以获得更好的性能等。

文章将要探讨的核心问题是：如何通过合理配置硬件和选择合适的模型来提升 LLM 的推理性能。

讨论焦点与观点分析

在讨论中，有人认为进行更多的 PCIe 节流测试，如降低版本或减少通道数量，可能会对性能产生影响。例如，有用户提到自己已经处于 PCIe 3.0 状态，而设置为 PCIe 4.0 时无法启动。

有人分享了降低到 PCIe 3.0 的方法是通过 BIOS 设置。

关于 PCIe 通道的限制，有用户指出使用 x1 riser 卡进行张量并行时回复可能需要 5 分钟。还有用户详细比较了不同 PCI-E 速度下的性能，并认为 PCIe 版本和通道数量确实会影响性能，但降低的程度并非想象中那么严重。

在电源供应方面，有人表示服务器 PSU 搭配 breakout 板能提供稳定的电源输出。

有用户建议进行带有推测解码（speculative decoding）的测试以提升性能，并指出合理选择模型不会影响输出质量，反而能提升性能，但也有人担心这会影响输出质量。

有人对 prompt eval 的 t/s 表示关注，认为这是其最关心的指标。

特别有见地的观点如，张量并行在提升性能方面表现出色，exllama2 在 prompt eval 方面能达到约 750 tps。

讨论中的共识是硬件配置和模型选择对 LLM 推理性能有着重要影响。

总之，这次关于硬件配置和 LLM 推理性能的讨论为相关领域的爱好者和从业者提供了丰富的见解和经验参考。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#