原贴链接

我知道我能花10000美元买一台Mac Studio，但Mac在模型训练方面表现不佳，推理速度也慢。我想要购买一个GPU集群，这样我就能训练/微调我的模型并主要进行推理。对我来说，未来可升级非常重要。我知道功耗和散热可能是个问题，所以我想知道我应该如何着手构建这样一个GPU集群。

讨论总结

原帖提问在30000美元预算下构建用于训练和推理大型语言模型（LLMs）的GPU集群，是自建还是购买成品好，以及怎样能保证未来可升级性。评论者们各抒己见，有的推荐具体硬件如A6000、4090等，有的建议云解决方案，也有人指出这个预算很难构建GPU集群或者不存在完全未来可升级的硬件，讨论氛围比较理性，大家从不同方面给出了自己的观点和建议。

主要观点

👍 不存在完全未来可升级的硬件
- 支持理由：技术发展迅速，硬件性能每年大幅变化，新模型对硬件要求不断提高，如新的LLMs可能无法在旧硬件上运行。
- 反对声音：无
🔥 云解决方案对于预算有限且非高频率使用场景性价比高
- 正方观点：云方案可避免电力、冷却等问题，可灵活增减规模，能让使用者及时止损，且有部分人计算出30000美元在云平台可购买较长时长的使用权。
- 反方观点：云解决方案可能面临GPU资源被拿走的风险，云端实时推理目前还不可行。
💡 3090ti系统用于开发新型模型便宜且具有前瞻性
- 解释：可在本地进行开发工作，然后在云端进行训练和推理，从显存带宽、PCB稳定性等方面看有一定优势。
💡 构建GPU集群时VRAM很关键
- 解释：在选择硬件如A6000时，其VRAM的特性在性价比方面起到重要作用。
💡 若自己构建GPU集群要考虑多方面因素
- 解释：要考虑硬件内部特殊性、预算分配、机箱条件、电力供应稳定性等多方面因素。

金句与有趣评论

“😂 Nothing is future proof.”
- 亮点：简洁地表达了在快速发展的硬件领域不存在永远适用的硬件这一观点。
“🤔 A budget of $30k will buy you a total of 10,000 hours worth of H100 access on runpod… thats about 6 and a half years (or 3.25 years if you need 2 H100… etc etc).”
- 亮点：通过具体的数据和平台，直观地展示了30000美元在云平台上的购买力。
“👀 VRAM is king. Stacking A6000s is probably the best you can get in terms of value/money”
- 亮点：强调了VRAM在构建GPU集群时的重要性以及A6000在性价比方面的优势。
“😂 I suggest you buy used, new supermicro is going to set you back.”
- 亮点：提出购买二手设备的建议，考虑到新设备成本过高的情况。
“🤔 If I had your GPU budget, I’d go for FP8 capable GPUs like 4090 or A6000 ada.”
- 亮点：根据预算给出了具体的GPU选择建议。

情感分析

总体情感倾向比较理性客观。主要分歧点在于选择云解决方案还是本地构建GPU集群，以及是否存在未来可升级的硬件。选择云解决方案的人认为其性价比高、省心，反对者则担心资源被拿走、实时推理不可行等；认为不存在未来可升级硬件的人是基于技术快速发展的事实，而部分推荐硬件的人可能更侧重于当前性价比。

趋势与预测

新兴话题：考虑监管因素对硬件选择的影响。
潜在影响：如果监管因素如政府对推理操作的管控等情况出现，可能会导致更多人倾向于拥有自己的硬件，而不是依赖云服务，这可能会影响硬件市场的供需关系和价格走向。

详细内容：

标题：3 万美元预算，如何选购用于训练和推理 LLM 的硬件？

在 Reddit 上，有一个备受关注的帖子，标题为“Budget is $30,000. What future-proof hardware (GPU cluster) can I buy to train and inference LLMs? Is it better to build it myself or purchase a complete package from websites like SuperMicro?”。该帖子获得了众多评论，大家就 3 万美元预算下如何选购适合训练和推理大语言模型（LLM）的硬件展开了热烈讨论。

讨论的焦点主要集中在是自行组装还是购买完整套装，以及何种硬件配置更具性价比和未来可扩展性。有人认为没有绝对的“未来可扩展性”，单个 H100 就已超出预算，A100 40gb 在预算内，但 8 路 SXM4 则超出。也有人提到可以选择 4 路 PCIe A100。

比如，有用户分享道：“A 单个 H100 是已经超出了预算。A100 40gb 可以在预算内，但一个 8 路 SXM4 仍然超出预算。你可以搞一个 4 路 PCIe A100。如果电力成本不是限制因素，有这样一个家伙。18x 4 路 SXM2 V100 16gb. https://www.ebay.com/itm/166822749186 ”

还有用户表示：“我同意‘没有什么是未来可扩展的’这一说法。需要注意的是，V100s 不支持 BF16，而这是大多数现代 LLM（如 Mistral、Llama 3、Qwen2）所使用的。甚至 A100s 也不支持 FP8，这在 Deepseek v3 中被使用。”

对于这个话题，存在多种不同的观点。有人建议选择云解决方案，让别人来操心电力、冷却等问题，这有助于升级路径。但也有人认为如果不确定所需硬件或者无法保证 24/7 使用至少 3 个月以上，自行组装可能无法节省成本。

有人认为在快速发展的生态系统中，“完全未来可扩展”是不存在的。安全起见，新硬件在正常使用年限内（企业通常规划 5 年）能保持其擅长的功能。也有人指出“多大的 LLM？”和“你需要它多快？”是重要的问题。

特别有见地的观点包括：有人提到服务器的硬件配置在未来几年可能会有显著变化，算法也可能改变，比如矩阵乘法可能在 3 年内变得多余，或者 FPGA 可能取得突破。因此，建议根据需求租用硬件。

总之，这个话题的讨论反映了在有限预算下选择适合的硬件配置的复杂性和多样性，以及对于未来可扩展性的不同理解和考虑。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#