原贴链接

我知道每隔几个月这里就会有人问类似的问题,但我通过谷歌或Reddit自己的搜索找到的答案都没有针对我的问题,所有答案都太模糊,对我没有帮助。

所以我正在尝试思考一种构建推理系统的方法,我已经有了两张3090显卡,并且计划围绕它们构建系统。

我想要实现的是理想情况下将模型加载到48GB的显存中,但我也希望有一些余地,如果少量GB溢出3090的容量,整个系统不会陷入停滞。

关于不同组件的问题如下:

主板:

  • 我知道带宽对推理来说不是很重要,但我需要某种参考点来利用这些信息。我们是在谈论PCIe 2.0 x2对于某些层在RAM中是否足够?如果不是,那么我需要多少?了解这一点将极大地影响所需主板的价格范围。

RAM:

  • 对于显存+内存推理,一个人需要的最小内存量是多少?当然,你加载的内容+操作系统,但模型是直接从SSD加载到显存还是我需要将内存与显存匹配?我读到有人推荐64GB内存或1.5倍显存用于推理机器,但没有给出太多解释为什么。
  • 如果你有一些层在内存中,优先考虑内存速度是否值得?这是对前一个问题的跟进。如果你根本不需要那么多内存,那么购买2x 16GB 7200MHz内存条(我能找到的最小的7200MHz)来尽可能帮助内存中的那些层是否有意义?

CPU:

  • 我又读到你不需要CPU“那么好”,但这也有点模糊。所以问题是:对于显存+内存推理,什么是不会让一切停滞的最小可行CPU?我正在考虑购买最便宜的带有集成显卡的Intel CPU+主板,可以处理7200MHz内存。

这些问题的重点是,如果CPU、内存速度和PCIe通道几乎无关紧要,那么我为什么不买一些非常便宜的DDR3/DDR4系统,然后装上两张3090显卡呢?这样可以省很多钱。

讨论总结

本次讨论主要围绕如何构建一个高效的多GPU推理系统,特别关注于CPU、RAM和PCIe带宽的关系。参与者提出了关于主板、RAM和CPU的具体问题,并寻求具体的硬件建议和性能评估。讨论中涉及的主要观点包括:至少需要PCIe 4.0 x4的带宽,即使将一些层放在RAM中会显著降低性能,对于推理任务,可以考虑使用较便宜的GPU来处理少量溢出的数据,而不是投资于高速RAM。此外,讨论还涉及了如何通过调整NVIDIA驱动设置来避免RAM溢出,以及在预算有限时如何做出最佳的硬件选择。

主要观点

  1. 👍 至少需要PCIe 4.0 x4的带宽
    • 支持理由:确保系统在高负载下不会出现性能瓶颈。
    • 反对声音:一些评论认为PCIe 2.0 x2可能就足够,但多数认为这会导致性能下降。
  2. 🔥 即使将一些层放在RAM中会显著降低性能
    • 正方观点:RAM中的数据处理速度远低于VRAM,影响整体性能。
    • 反方观点:在某些情况下,RAM的使用是不可避免的,需要权衡利弊。
  3. 💡 对于推理任务,可以考虑使用较便宜的GPU
    • 解释:如3060显卡,用于处理少量溢出的数据,而不是投资于高速RAM。
  4. 👀 通过调整NVIDIA驱动设置来避免RAM溢出
    • 解释:禁用默认的VRAM与系统内存共享功能,减少对系统内存的依赖。
  5. 🌟 在预算有限时如何做出最佳的硬件选择
    • 解释:选择性价比较高的CPU和RAM,将更多预算投入到高性能GPU上。

金句与有趣评论

  1. “😂 chewbie:Not sure what it’s worth, but here I think the guy is trying to answer your question : https://www.howmanygputorunmyopenllm.org/
    • 亮点:提供了一个可能有助于解决问题的资源链接。
  2. “🤔 EmilPi:Good resource! However, it is only if you don’t offload models to RAM, if you have enough fortune to buy all the GPUs you need :)”
    • 亮点:指出了资源的局限性,强调了GPU资源的重要性。
  3. “👀 No_Afternoon_4260:As soon as you put some layers in ram you lose a (fu**ing) lot of performance.”
    • 亮点:强调了RAM中数据处理对性能的负面影响。

情感分析

讨论的总体情感倾向较为积极,多数评论者提供了具体的建议和资源链接,帮助原帖作者更好地理解问题。争议点主要集中在CPU、RAM和PCIe带宽的重要性上,以及如何在预算内做出最佳的硬件选择。

趋势与预测

  • 新兴话题:如何通过调整系统设置和驱动配置来优化多GPU系统的性能。
  • 潜在影响:对深度学习领域的硬件配置和成本效益分析有积极影响,帮助研究者和开发者更高效地构建和优化系统。