原贴链接

我们正在考虑构建一个仅用于运行本地LLM推理的服务器。由于我已经很久没有构建过任何重要的设备，所以我想了解一下最新的资讯，以防错过可能影响构建的内容。

背景：

我们是一个物理和工程研究实验室，主要工作是设计实验设备（这涉及到大量用于数值计算的编码），以及开发用于控制和优化的测量代码（仪器编程，强化学习）。
我理解使用6*4090构建设备（如Tinybox）可能更划算，但由于预算限制（无论如何都要花掉，否则会过期），获取3张显卡似乎更容易维护且功耗更低，因此我更倾向于后者。

使用场景： 该服务器将由我的工作团队使用，预计并发用户少于10人。大多数团队成员可能会通过基于Web的GUI（我们正在考虑OpenWebGUI）访问它，而更高级的用户可能会使用API。我们打算将其用于：

编程辅助
数学推导支持（可能集成Lean）
文档写作的语言润色

目前，Qwen 2.5 72B似乎是一个合适的选择，考虑到模型大小。我们也可能运行第二个模型进行其他测试，例如专门用于音频/视频处理的模型。

主要硬件/实施问题：

如果我的目标是运行Qwen 2.5 72B，可能以Q4质量运行，3x4090是否足够？（我需要将它们功率限制在300W）。我猜如果我想允许最多10个并发用户，为每个活跃用户留出更大的上下文窗口（比如16k+），并可能尝试RAG和其他实现，可能更安全地假设我需要更多VRAM并选择A6000 Ada？
在并发用户方面，预计会变慢。根据Claude和GPT的估计，一个活跃聊天大约能获得40 TPS。我相信10名成员同时查询的可能性很低，因此处理速度可能不是问题。然而，对于内存上下文，我希望在生成响应时始终将其卸载到RAM，仅在提示时重新加载到VRAM。这种实现是否可行？否则我担心闲置聊天的VRAM会占用GPU。

其他硬件问题：（更多关于物理限制，较少关于LLM，以防您能对构建发表评论）

我正尝试重用一台旧电脑机箱，Lian Li PC-A75。它支持高达170mm的散热器高度。Noctua NH-U14S TR5-SP6据说为165mm。这似乎有点勉强，您认为这是在冒险吗？我担心的是我不知道CPU插槽/封装高度是否会决定有效高度。5mm太小，无法容纳任何余量。
如果我改用Noctua NH-D9 TR5-SP6 4U，您是否知道其RAM间隙是否适合我完全占用所有RAM插槽？（我也直接询问了Noctua，从其他搜索来看，答案似乎是YES）。
在功耗方面，ChatGPT的估计似乎合理，且在PSU的80%以内。您认为使用单个PSU是可以接受的，还是不安全？

备注：

我们有几台NAS用于较慢的存储，因此系统不需要本地硬盘。
如果上述间隙问题无法解决，我们可以改用更宽敞的机箱。
预算最高为40,000美元。
我们确实有另一台配备A1001和H100 NVL3的4U服务器，但该服务器专用于其他工作负载，因此我试图构建一个独立的系统来测试拥有本地LLM的想法。由于这个奇怪的原因，我们无法简单地在该机架上添加更多GPU。但如果我们测试的系统足够好，迁移LLM到更大的系统并非不可能。

构建清单：

我正在考虑购买一块Threadripper Pro主板以获得所需的PCI-E通道，然后连接3块高VRAM GPU到第1、4和7个插槽。

组件	描述	型号	部件编号	数量	价格（美元）	总成本（美元）	最大功率消耗（W）	总最大功率消耗（W）	备注
主板	工作站主板，7个PCIe x16插槽	ASUS Pro WS WRX90E-SAGE SE	90MB1FW0-M0AAY0	1	$1,439.61	$1,439.61	100	100	链接
CPU	32核，64线程工作站处理器	AMD Ryzen Threadripper Pro 7975WX	100-100000453WOF	1	$5,005.72	$5,005.72	350	350	链接
RAM	768GB DDR5 ECC Registered DIMMs（8件套）	V-Color TRA596G60D436O	TRA596G60D436O	1	$4,942.88	$4,942.88	10	80	链接
存储	高速NVMe SSD	Samsung 990 PRO 2TB PCIe 4.0	MZ-V9P2T0BW	4	$332.96	$1,331.84	8	32	链接
电源	1600W 80 PLUS Titanium ATX电源	Corsair AX1600i	CP-9020087-JP	1	$518.01	$518.01	N/A	N/A	链接
散热解决方案	空气CPU散热器，140mm风扇尺寸	Noctua NH-U14S TR5-SP6	NH-U14S TR5-SP6	1	$144.45	$144.45	6	6	链接
GPU	高性能显卡	Nvidia A6000 Ada	A6000-Ada	3	$8,076.00	$24,228.00	300	900	链接
散热风扇	120mm高级散热风扇（3件套）	Noctua NF-A12x25	NF-A12x25-3	3	$30.26	$90.78	1.68	5.04	链接
额外散热风扇	140mm高级散热风扇（3件套）	Noctua NF-A14x25 G2	NF-A14x25-G2	3	$40.38	$121.14	1.56	4.68	链接
机箱	E-ATX铝合金机箱	Lian Li PC-A75	PC-A75X	1	$0.00	$0.00	0	0	已购买

总结：

总成本（美元）：$37,822.43
总最大功率消耗（W）：1,473.04 W

任何评论都欢迎。

讨论总结

Reddit用户在讨论中分享了他们的见解和建议，主要围绕着如何在预算和性能之间找到平衡点。用户们提出了各种硬件配置方案，包括使用AMD EPYC处理器、GPU的选择和配置、预组装服务器与DIY方案的比较，以及如何有效管理电力消耗等问题。讨论中，用户们强调了成本效益和扩展性的重要性，并提供了一些具体的硬件配置建议，包括使用更经济的配置、购买二手硬件以及考虑预组装的服务器选项。

主要观点

👍 使用AMD EPYC处理器
- 支持理由：EPYC处理器在性能和扩展性方面更具优势，且二手EPYC更具经济性。
- 反对声音：原帖中提出的Threadripper Pro配置被认为过于昂贵且不必要。
🔥 GPU配置
- 正方观点：更多的、成本更低的GPU（如4090s）被认为优于少数、昂贵的GPU。
- 反方观点：考虑到预算和电力消耗，建议使用二手的A100 80GB显卡。
💡 预组装服务器
- 预组装服务器如TinyBox和Bizon被推荐，因为它们提供了方便和潜在的成本节约。
💡 电力管理
- 用户们提出了关于100V电路限制的担忧，并建议通过nvidia-smi工具限制GPU功耗。
💡 内存和PCIe
- EPYC处理器可能具有较少的PCIe通道，而P2P通信在多GPU系统中对大型模型至关重要。
💡 成本优化
- 用户们普遍建议优化组件选择，以实现更好的性价比。
💡 硬件配置
- 用户们提供了具体的硬件配置建议，包括使用更经济的配置和购买二手硬件。
💡 放置建议
- 用户建议将服务器放置在无气候控制的closet中，只要确保适当的通风和散热即可。

金句与有趣评论

“😂 Screw threadrippers and look at epyc, especially used. You will get much more mileage and be able to expand.”
- 亮点：强调了EPYC处理器的优势，特别是二手市场的性价比。
“🤔 5k for a cpu is just crazy. I’d rather have another A6000.”
- 亮点：对原帖中提出的CPU预算提出了质疑，建议将资金用于更多的GPU。
“👀 The epyc are plenty fast for general things but another GPU will give you a higher quant, bigger model or more context for longer papers.”
- 亮点：讨论了EPYC处理器的性能和GPU在模型推理中的重要性。
“😂 Thanks for the suggestions, indeed it’s attractive if we can fit more GPUs with the budget, or save some (so if things don’t work out nicely I felt less guilty lol).”
- 亮点：用户对社区建议表示感谢，并考虑如何在预算内优化GPU配置。
“🤔 You can just stick it on a table in a closet. My server runs without climate control and the worst that happened is I lost a memory stick in the winter.”
- 亮点：提供了一个有趣的放置建议，表明服务器可以在非理想条件下运行。

情感分析

讨论的总体情感倾向是积极的，用户们提供了许多建设性的建议和意见。主要分歧点在于硬件配置的选择，特别是CPU和GPU的选择。讨论中，用户们强调了成本效益和电力管理的重要性，并提供了具体的解决方案。

趋势与预测

新兴话题：用户们可能会继续讨论关于预组装服务器和DIY方案的成本效益，以及如何优化电力消耗。
潜在影响：这些讨论可能会对那些计划构建本地LLM服务器的用户产生实际影响，帮助他们做出更明智的硬件配置选择。

详细内容：

《构建本地 LLM 服务器的硬件选择引发热烈讨论》

在 Reddit 上，一则关于构建本地 LLM 服务器用于推理的帖子引发了广泛关注。该帖子获得了众多点赞和大量评论。

原帖的发布者是一位来自物理和工程研究实验室的人员，他们考虑构建这样的服务器，并且详细阐述了背景、使用场景、主要硬件及实施问题、其他硬件问题、备注以及构建清单等方面。

这一话题引发的主要讨论方向包括：是选择 Threadripper 还是 EPYC 作为 CPU，GPU 的数量和型号选择，预构建解决方案的优势，以及电源、内存和机箱等方面的考量。

讨论焦点与观点分析：

有人认为应该舍弃 Threadripper 而选择 EPYC，尤其是二手的，这样能获得更高性价比，而且能扩展。但也有人表示不确定是否有适配的主板，也许 Supermicro 的产品能行，不过要确保机箱有合适的 PCI-E 插槽。

有用户推荐了 TinyBox 这种预构建的方案，认为其具有相同的总 VRAM ，计算能力更强且价格更低。还有人提到 Bizon 工作站，称其在 40K 美元预算内是不错的选择。

有人分享自己有类似的构建经历，比如[SandboChang]表示自己有组装类似规模服务器的经验，但兼容性检查可能会比较麻烦。

一些有趣的观点如[SandboChang]提到由于只有 100V 电压，加上可能放置服务器的空间在实验室，已有其他设备共享电路，所以对电源问题比较谨慎。

对于此，有人建议直接购买 API 信用额度并在闲暇时使用，除非隐私是个问题。但[SandboChang]回应称不被允许这样做，且隐私和数据安全是关注重点。

也有人建议联系专业公司，比如 lambda labs 和 Nvidia ，还有人推荐了 SuperMicro 等有预构建选项的公司。

讨论中的共识在于，以 40K 美元的预算，购买预构建的服务器可能会节省很多麻烦和时间。

总之，关于构建本地 LLM 服务器的硬件选择讨论丰富多样，为有类似需求的人提供了众多有价值的参考和思考方向。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#