我们正在考虑构建一个仅用于运行本地LLM推理的服务器。由于我已经很久没有构建过任何重要的设备,所以我想了解一下最新的资讯,以防错过可能影响构建的内容。
背景:
- 我们是一个物理和工程研究实验室,主要工作是设计实验设备(这涉及到大量用于数值计算的编码),以及开发用于控制和优化的测量代码(仪器编程,强化学习)。
- 我理解使用6*4090构建设备(如Tinybox)可能更划算,但由于预算限制(无论如何都要花掉,否则会过期),获取3张显卡似乎更容易维护且功耗更低,因此我更倾向于后者。
使用场景: 该服务器将由我的工作团队使用,预计并发用户少于10人。大多数团队成员可能会通过基于Web的GUI(我们正在考虑OpenWebGUI)访问它,而更高级的用户可能会使用API。我们打算将其用于:
- 编程辅助
- 数学推导支持(可能集成Lean)
- 文档写作的语言润色
目前,Qwen 2.5 72B似乎是一个合适的选择,考虑到模型大小。我们也可能运行第二个模型进行其他测试,例如专门用于音频/视频处理的模型。
主要硬件/实施问题:
- 如果我的目标是运行Qwen 2.5 72B,可能以Q4质量运行,3x4090是否足够?(我需要将它们功率限制在300W)。我猜如果我想允许最多10个并发用户,为每个活跃用户留出更大的上下文窗口(比如16k+),并可能尝试RAG和其他实现,可能更安全地假设我需要更多VRAM并选择A6000 Ada?
- 在并发用户方面,预计会变慢。根据Claude和GPT的估计,一个活跃聊天大约能获得40 TPS。我相信10名成员同时查询的可能性很低,因此处理速度可能不是问题。然而,对于内存上下文,我希望在生成响应时始终将其卸载到RAM,仅在提示时重新加载到VRAM。这种实现是否可行?否则我担心闲置聊天的VRAM会占用GPU。
其他硬件问题:(更多关于物理限制,较少关于LLM,以防您能对构建发表评论)
- 我正尝试重用一台旧电脑机箱,Lian Li PC-A75。它支持高达170mm的散热器高度。Noctua NH-U14S TR5-SP6据说为165mm。这似乎有点勉强,您认为这是在冒险吗?我担心的是我不知道CPU插槽/封装高度是否会决定有效高度。5mm太小,无法容纳任何余量。
- 如果我改用Noctua NH-D9 TR5-SP6 4U,您是否知道其RAM间隙是否适合我完全占用所有RAM插槽?(我也直接询问了Noctua,从其他搜索来看,答案似乎是YES)。
- 在功耗方面,ChatGPT的估计似乎合理,且在PSU的80%以内。您认为使用单个PSU是可以接受的,还是不安全?
备注:
- 我们有几台NAS用于较慢的存储,因此系统不需要本地硬盘。
- 如果上述间隙问题无法解决,我们可以改用更宽敞的机箱。
- 预算最高为40,000美元。
- 我们确实有另一台配备A1001和H100 NVL3的4U服务器,但该服务器专用于其他工作负载,因此我试图构建一个独立的系统来测试拥有本地LLM的想法。由于这个奇怪的原因,我们无法简单地在该机架上添加更多GPU。但如果我们测试的系统足够好,迁移LLM到更大的系统并非不可能。
构建清单:
- 我正在考虑购买一块Threadripper Pro主板以获得所需的PCI-E通道,然后连接3块高VRAM GPU到第1、4和7个插槽。
组件 | 描述 | 型号 | 部件编号 | 数量 | 价格(美元) | 总成本(美元) | 最大功率消耗(W) | 总最大功率消耗(W) | 备注 |
---|---|---|---|---|---|---|---|---|---|
主板 | 工作站主板,7个PCIe x16插槽 | ASUS Pro WS WRX90E-SAGE SE | 90MB1FW0-M0AAY0 | 1 | $1,439.61 | $1,439.61 | 100 | 100 | 链接 |
CPU | 32核,64线程工作站处理器 | AMD Ryzen Threadripper Pro 7975WX | 100-100000453WOF | 1 | $5,005.72 | $5,005.72 | 350 | 350 | 链接 |
RAM | 768GB DDR5 ECC Registered DIMMs(8件套) | V-Color TRA596G60D436O | TRA596G60D436O | 1 | $4,942.88 | $4,942.88 | 10 | 80 | 链接 |
存储 | 高速NVMe SSD | Samsung 990 PRO 2TB PCIe 4.0 | MZ-V9P2T0BW | 4 | $332.96 | $1,331.84 | 8 | 32 | 链接 |
电源 | 1600W 80 PLUS Titanium ATX电源 | Corsair AX1600i | CP-9020087-JP | 1 | $518.01 | $518.01 | N/A | N/A | 链接 |
散热解决方案 | 空气CPU散热器,140mm风扇尺寸 | Noctua NH-U14S TR5-SP6 | NH-U14S TR5-SP6 | 1 | $144.45 | $144.45 | 6 | 6 | 链接 |
GPU | 高性能显卡 | Nvidia A6000 Ada | A6000-Ada | 3 | $8,076.00 | $24,228.00 | 300 | 900 | 链接 |
散热风扇 | 120mm高级散热风扇(3件套) | Noctua NF-A12x25 | NF-A12x25-3 | 3 | $30.26 | $90.78 | 1.68 | 5.04 | 链接 |
额外散热风扇 | 140mm高级散热风扇(3件套) | Noctua NF-A14x25 G2 | NF-A14x25-G2 | 3 | $40.38 | $121.14 | 1.56 | 4.68 | 链接 |
机箱 | E-ATX铝合金机箱 | Lian Li PC-A75 | PC-A75X | 1 | $0.00 | $0.00 | 0 | 0 | 已购买 |
总结:
- 总成本(美元):$37,822.43
- 总最大功率消耗(W):1,473.04 W
任何评论都欢迎。
讨论总结
Reddit用户在讨论中分享了他们的见解和建议,主要围绕着如何在预算和性能之间找到平衡点。用户们提出了各种硬件配置方案,包括使用AMD EPYC处理器、GPU的选择和配置、预组装服务器与DIY方案的比较,以及如何有效管理电力消耗等问题。讨论中,用户们强调了成本效益和扩展性的重要性,并提供了一些具体的硬件配置建议,包括使用更经济的配置、购买二手硬件以及考虑预组装的服务器选项。
主要观点
👍 使用AMD EPYC处理器
- 支持理由:EPYC处理器在性能和扩展性方面更具优势,且二手EPYC更具经济性。
- 反对声音:原帖中提出的Threadripper Pro配置被认为过于昂贵且不必要。
🔥 GPU配置
- 正方观点:更多的、成本更低的GPU(如4090s)被认为优于少数、昂贵的GPU。
- 反方观点:考虑到预算和电力消耗,建议使用二手的A100 80GB显卡。
💡 预组装服务器
- 预组装服务器如TinyBox和Bizon被推荐,因为它们提供了方便和潜在的成本节约。
💡 电力管理
- 用户们提出了关于100V电路限制的担忧,并建议通过nvidia-smi工具限制GPU功耗。
💡 内存和PCIe
- EPYC处理器可能具有较少的PCIe通道,而P2P通信在多GPU系统中对大型模型至关重要。
💡 成本优化
- 用户们普遍建议优化组件选择,以实现更好的性价比。
💡 硬件配置
- 用户们提供了具体的硬件配置建议,包括使用更经济的配置和购买二手硬件。
💡 放置建议
- 用户建议将服务器放置在无气候控制的closet中,只要确保适当的通风和散热即可。
金句与有趣评论
“😂 Screw threadrippers and look at epyc, especially used. You will get much more mileage and be able to expand.”
- 亮点:强调了EPYC处理器的优势,特别是二手市场的性价比。
“🤔 5k for a cpu is just crazy. I’d rather have another A6000.”
- 亮点:对原帖中提出的CPU预算提出了质疑,建议将资金用于更多的GPU。
“👀 The epyc are plenty fast for general things but another GPU will give you a higher quant, bigger model or more context for longer papers.”
- 亮点:讨论了EPYC处理器的性能和GPU在模型推理中的重要性。
“😂 Thanks for the suggestions, indeed it’s attractive if we can fit more GPUs with the budget, or save some (so if things don’t work out nicely I felt less guilty lol).”
- 亮点:用户对社区建议表示感谢,并考虑如何在预算内优化GPU配置。
“🤔 You can just stick it on a table in a closet. My server runs without climate control and the worst that happened is I lost a memory stick in the winter.”
- 亮点:提供了一个有趣的放置建议,表明服务器可以在非理想条件下运行。
情感分析
讨论的总体情感倾向是积极的,用户们提供了许多建设性的建议和意见。主要分歧点在于硬件配置的选择,特别是CPU和GPU的选择。讨论中,用户们强调了成本效益和电力管理的重要性,并提供了具体的解决方案。
趋势与预测
- 新兴话题:用户们可能会继续讨论关于预组装服务器和DIY方案的成本效益,以及如何优化电力消耗。
- 潜在影响:这些讨论可能会对那些计划构建本地LLM服务器的用户产生实际影响,帮助他们做出更明智的硬件配置选择。
详细内容:
《构建本地 LLM 服务器的硬件选择引发热烈讨论》
在 Reddit 上,一则关于构建本地 LLM 服务器用于推理的帖子引发了广泛关注。该帖子获得了众多点赞和大量评论。
原帖的发布者是一位来自物理和工程研究实验室的人员,他们考虑构建这样的服务器,并且详细阐述了背景、使用场景、主要硬件及实施问题、其他硬件问题、备注以及构建清单等方面。
这一话题引发的主要讨论方向包括:是选择 Threadripper 还是 EPYC 作为 CPU,GPU 的数量和型号选择,预构建解决方案的优势,以及电源、内存和机箱等方面的考量。
讨论焦点与观点分析:
有人认为应该舍弃 Threadripper 而选择 EPYC,尤其是二手的,这样能获得更高性价比,而且能扩展。但也有人表示不确定是否有适配的主板,也许 Supermicro 的产品能行,不过要确保机箱有合适的 PCI-E 插槽。
有用户推荐了 TinyBox 这种预构建的方案,认为其具有相同的总 VRAM ,计算能力更强且价格更低。还有人提到 Bizon 工作站,称其在 40K 美元预算内是不错的选择。
有人分享自己有类似的构建经历,比如[SandboChang]表示自己有组装类似规模服务器的经验,但兼容性检查可能会比较麻烦。
一些有趣的观点如[SandboChang]提到由于只有 100V 电压,加上可能放置服务器的空间在实验室,已有其他设备共享电路,所以对电源问题比较谨慎。
对于此,有人建议直接购买 API 信用额度并在闲暇时使用,除非隐私是个问题。但[SandboChang]回应称不被允许这样做,且隐私和数据安全是关注重点。
也有人建议联系专业公司,比如 lambda labs 和 Nvidia ,还有人推荐了 SuperMicro 等有预构建选项的公司。
讨论中的共识在于,以 40K 美元的预算,购买预构建的服务器可能会节省很多麻烦和时间。
总之,关于构建本地 LLM 服务器的硬件选择讨论丰富多样,为有类似需求的人提供了众多有价值的参考和思考方向。
感谢您的耐心阅读!来选个表情,或者留个评论吧!