原贴链接

我们正在考虑构建一个仅用于运行本地LLM推理的服务器。由于我已经很久没有构建过任何重要的设备,所以我想了解一下最新的资讯,以防错过可能影响构建的内容。

背景:

  • 我们是一个物理和工程研究实验室,主要工作是设计实验设备(这涉及到大量用于数值计算的编码),以及开发用于控制和优化的测量代码(仪器编程,强化学习)。
  • 我理解使用6*4090构建设备(如Tinybox)可能更划算,但由于预算限制(无论如何都要花掉,否则会过期),获取3张显卡似乎更容易维护且功耗更低,因此我更倾向于后者。

使用场景: 该服务器将由我的工作团队使用,预计并发用户少于10人。大多数团队成员可能会通过基于Web的GUI(我们正在考虑OpenWebGUI)访问它,而更高级的用户可能会使用API。我们打算将其用于:

  1. 编程辅助
  2. 数学推导支持(可能集成Lean)
  3. 文档写作的语言润色

目前,Qwen 2.5 72B似乎是一个合适的选择,考虑到模型大小。我们也可能运行第二个模型进行其他测试,例如专门用于音频/视频处理的模型。

主要硬件/实施问题:

  1. 如果我的目标是运行Qwen 2.5 72B,可能以Q4质量运行,3x4090是否足够?(我需要将它们功率限制在300W)。我猜如果我想允许最多10个并发用户,为每个活跃用户留出更大的上下文窗口(比如16k+),并可能尝试RAG和其他实现,可能更安全地假设我需要更多VRAM并选择A6000 Ada?
  2. 在并发用户方面,预计会变慢。根据Claude和GPT的估计,一个活跃聊天大约能获得40 TPS。我相信10名成员同时查询的可能性很低,因此处理速度可能不是问题。然而,对于内存上下文,我希望在生成响应时始终将其卸载到RAM,仅在提示时重新加载到VRAM。这种实现是否可行?否则我担心闲置聊天的VRAM会占用GPU。

其他硬件问题:(更多关于物理限制,较少关于LLM,以防您能对构建发表评论)

  1. 我正尝试重用一台旧电脑机箱,Lian Li PC-A75。它支持高达170mm的散热器高度。Noctua NH-U14S TR5-SP6据说为165mm。这似乎有点勉强,您认为这是在冒险吗?我担心的是我不知道CPU插槽/封装高度是否会决定有效高度。5mm太小,无法容纳任何余量。
  2. 如果我改用Noctua NH-D9 TR5-SP6 4U,您是否知道其RAM间隙是否适合我完全占用所有RAM插槽?(我也直接询问了Noctua,从其他搜索来看,答案似乎是YES)。
  3. 在功耗方面,ChatGPT的估计似乎合理,且在PSU的80%以内。您认为使用单个PSU是可以接受的,还是不安全?

备注:

  1. 我们有几台NAS用于较慢的存储,因此系统不需要本地硬盘。
  2. 如果上述间隙问题无法解决,我们可以改用更宽敞的机箱。
  3. 预算最高为40,000美元。
  4. 我们确实有另一台配备A1001和H100 NVL3的4U服务器,但该服务器专用于其他工作负载,因此我试图构建一个独立的系统来测试拥有本地LLM的想法。由于这个奇怪的原因,我们无法简单地在该机架上添加更多GPU。但如果我们测试的系统足够好,迁移LLM到更大的系统并非不可能。

构建清单:

  • 我正在考虑购买一块Threadripper Pro主板以获得所需的PCI-E通道,然后连接3块高VRAM GPU到第1、4和7个插槽。
组件描述型号部件编号数量价格(美元)总成本(美元)最大功率消耗(W)总最大功率消耗(W)备注
主板工作站主板,7个PCIe x16插槽ASUS Pro WS WRX90E-SAGE SE90MB1FW0-M0AAY01$1,439.61$1,439.61100100链接
CPU32核,64线程工作站处理器AMD Ryzen Threadripper Pro 7975WX100-100000453WOF1$5,005.72$5,005.72350350链接
RAM768GB DDR5 ECC Registered DIMMs(8件套)V-Color TRA596G60D436OTRA596G60D436O1$4,942.88$4,942.881080链接
存储高速NVMe SSDSamsung 990 PRO 2TB PCIe 4.0MZ-V9P2T0BW4$332.96$1,331.84832链接
电源1600W 80 PLUS Titanium ATX电源Corsair AX1600iCP-9020087-JP1$518.01$518.01N/AN/A链接
散热解决方案空气CPU散热器,140mm风扇尺寸Noctua NH-U14S TR5-SP6NH-U14S TR5-SP61$144.45$144.4566链接
GPU高性能显卡Nvidia A6000 AdaA6000-Ada3$8,076.00$24,228.00300900链接
散热风扇120mm高级散热风扇(3件套)Noctua NF-A12x25NF-A12x25-33$30.26$90.781.685.04链接
额外散热风扇140mm高级散热风扇(3件套)Noctua NF-A14x25 G2NF-A14x25-G23$40.38$121.141.564.68链接
机箱E-ATX铝合金机箱Lian Li PC-A75PC-A75X1$0.00$0.0000已购买

总结:

  • 总成本(美元):$37,822.43
  • 总最大功率消耗(W):1,473.04 W

任何评论都欢迎。

讨论总结

Reddit用户在讨论中分享了他们的见解和建议,主要围绕着如何在预算和性能之间找到平衡点。用户们提出了各种硬件配置方案,包括使用AMD EPYC处理器、GPU的选择和配置、预组装服务器与DIY方案的比较,以及如何有效管理电力消耗等问题。讨论中,用户们强调了成本效益和扩展性的重要性,并提供了一些具体的硬件配置建议,包括使用更经济的配置、购买二手硬件以及考虑预组装的服务器选项。

主要观点

  1. 👍 使用AMD EPYC处理器

    • 支持理由:EPYC处理器在性能和扩展性方面更具优势,且二手EPYC更具经济性。
    • 反对声音:原帖中提出的Threadripper Pro配置被认为过于昂贵且不必要。
  2. 🔥 GPU配置

    • 正方观点:更多的、成本更低的GPU(如4090s)被认为优于少数、昂贵的GPU。
    • 反方观点:考虑到预算和电力消耗,建议使用二手的A100 80GB显卡。
  3. 💡 预组装服务器

    • 预组装服务器如TinyBox和Bizon被推荐,因为它们提供了方便和潜在的成本节约。
  4. 💡 电力管理

    • 用户们提出了关于100V电路限制的担忧,并建议通过nvidia-smi工具限制GPU功耗。
  5. 💡 内存和PCIe

    • EPYC处理器可能具有较少的PCIe通道,而P2P通信在多GPU系统中对大型模型至关重要。
  6. 💡 成本优化

    • 用户们普遍建议优化组件选择,以实现更好的性价比。
  7. 💡 硬件配置

    • 用户们提供了具体的硬件配置建议,包括使用更经济的配置和购买二手硬件。
  8. 💡 放置建议

    • 用户建议将服务器放置在无气候控制的closet中,只要确保适当的通风和散热即可。

金句与有趣评论

  1. “😂 Screw threadrippers and look at epyc, especially used. You will get much more mileage and be able to expand.”

    • 亮点:强调了EPYC处理器的优势,特别是二手市场的性价比。
  2. “🤔 5k for a cpu is just crazy. I’d rather have another A6000.”

    • 亮点:对原帖中提出的CPU预算提出了质疑,建议将资金用于更多的GPU。
  3. “👀 The epyc are plenty fast for general things but another GPU will give you a higher quant, bigger model or more context for longer papers.”

    • 亮点:讨论了EPYC处理器的性能和GPU在模型推理中的重要性。
  4. “😂 Thanks for the suggestions, indeed it’s attractive if we can fit more GPUs with the budget, or save some (so if things don’t work out nicely I felt less guilty lol).”

    • 亮点:用户对社区建议表示感谢,并考虑如何在预算内优化GPU配置。
  5. “🤔 You can just stick it on a table in a closet. My server runs without climate control and the worst that happened is I lost a memory stick in the winter.”

    • 亮点:提供了一个有趣的放置建议,表明服务器可以在非理想条件下运行。

情感分析

讨论的总体情感倾向是积极的,用户们提供了许多建设性的建议和意见。主要分歧点在于硬件配置的选择,特别是CPU和GPU的选择。讨论中,用户们强调了成本效益和电力管理的重要性,并提供了具体的解决方案。

趋势与预测

  • 新兴话题:用户们可能会继续讨论关于预组装服务器和DIY方案的成本效益,以及如何优化电力消耗。
  • 潜在影响:这些讨论可能会对那些计划构建本地LLM服务器的用户产生实际影响,帮助他们做出更明智的硬件配置选择。

详细内容:

《构建本地 LLM 服务器的硬件选择引发热烈讨论》

在 Reddit 上,一则关于构建本地 LLM 服务器用于推理的帖子引发了广泛关注。该帖子获得了众多点赞和大量评论。

原帖的发布者是一位来自物理和工程研究实验室的人员,他们考虑构建这样的服务器,并且详细阐述了背景、使用场景、主要硬件及实施问题、其他硬件问题、备注以及构建清单等方面。

这一话题引发的主要讨论方向包括:是选择 Threadripper 还是 EPYC 作为 CPU,GPU 的数量和型号选择,预构建解决方案的优势,以及电源、内存和机箱等方面的考量。

讨论焦点与观点分析:

有人认为应该舍弃 Threadripper 而选择 EPYC,尤其是二手的,这样能获得更高性价比,而且能扩展。但也有人表示不确定是否有适配的主板,也许 Supermicro 的产品能行,不过要确保机箱有合适的 PCI-E 插槽。

有用户推荐了 TinyBox 这种预构建的方案,认为其具有相同的总 VRAM ,计算能力更强且价格更低。还有人提到 Bizon 工作站,称其在 40K 美元预算内是不错的选择。

有人分享自己有类似的构建经历,比如[SandboChang]表示自己有组装类似规模服务器的经验,但兼容性检查可能会比较麻烦。

一些有趣的观点如[SandboChang]提到由于只有 100V 电压,加上可能放置服务器的空间在实验室,已有其他设备共享电路,所以对电源问题比较谨慎。

对于此,有人建议直接购买 API 信用额度并在闲暇时使用,除非隐私是个问题。但[SandboChang]回应称不被允许这样做,且隐私和数据安全是关注重点。

也有人建议联系专业公司,比如 lambda labs 和 Nvidia ,还有人推荐了 SuperMicro 等有预构建选项的公司。

讨论中的共识在于,以 40K 美元的预算,购买预构建的服务器可能会节省很多麻烦和时间。

总之,关于构建本地 LLM 服务器的硬件选择讨论丰富多样,为有类似需求的人提供了众多有价值的参考和思考方向。