原贴链接

有人提到发布的四GPU设备不多，所以我来分享一下我的。我在x399主板和Threadripper 1950x CPU上运行4个RTX A5000 GPU，由1300W EVGA电源供电。GPU使用x16 PCIe转接电缆连接到主板。机箱是定制设计且3D打印的（如果想要设计可告诉我，我会发布），可容纳8个GPU，目前仅安装了4个。对70b q8模型进行推理，每秒大约能得到10个token。附上两张图片链接。

讨论总结

原帖分享了自己的Quad GPU setup，包括硬件配置和运行情况。评论者们的讨论主要集中在硬件相关话题，如对机箱容纳GPU方式的好奇、不同GPU组合及设备运行情况、硬件获取计划等。在性能方面，有人对原帖中GPU的运行速度表示疑惑，也有人分享了自己提升性能的经验。此外，还有人分享自己类似的电脑构建，整体氛围积极，充满了对硬件设备的赞赏和好奇。

主要观点

👍 机箱容纳8个GPU的方式让人好奇
- 支持理由：原帖提到机箱可容纳8个GPU，但未说明安装方式，引发好奇。
- 反对声音：无
🔥 4个RTX A5000的性能应不止10个token/秒
- 正方观点：A5000性能较强，4个组合起来应该能达到更高速度。
- 反方观点：无
💡 3x GPU系统设置有很棒的想法但可能会遇到麻烦
- 支持理由：从模型层数特性来看，3x GPU可能存在适配问题。
- 反对声音：有人表示除VLLM外未遇到问题。
🤔 按层拆分模型时GPU数量才会影响
- 解释：如果在GPU间拆分各层，GPU数量不重要，但按层拆分则会有影响。
😎 即将进行与GPU相关的硬件尝试
- 解释：如通过Thunderbolt 4连接特定GPU设备组合。

金句与有趣评论

“😂 那是个非常酷的机箱，8个（GPU）怎么装，在CPU上方吗？”
- 亮点：直接表达对机箱的好奇，引出关于机箱容纳GPU方式的讨论。
“🤔 我觉得4个A5000应该不止10t/秒。”
- 亮点：对原帖中的性能数据提出疑问，引发性能方面的深入讨论。
“👀 AnhedoniaJack：3x GPU is going to be frustrating, because most models have an even number of layers that isn’t divisible by three.”
- 亮点：指出3x GPU可能遇到麻烦的原因，是关于模型适配的重要观点。
“😎 我即将通过Thunderbolt 4获得3x eGPU 3090s，与笔记本电脑上的3080 16GB相结合。”
- 亮点：分享独特的硬件组合计划，吸引他人关注。
“👍 Noice. I guess I’m in the club.”
- 亮点：简洁表达对原帖GPU设置的认可和参与感。

情感分析

总体情感倾向为正面。主要分歧点在于3x GPU是否会遇到问题上，可能的原因是不同的软件和操作方式对GPU的适配情况不同。大部分评论者对原帖中的硬件设备表示赞赏、认可，对相关硬件计划充满期待。

趋势与预测

新兴话题：不同GPU组合在不同模型下的性能优化可能会引发后续讨论。
潜在影响：对硬件设备制造商来说，了解用户在不同GPU组合下的需求和问题，有助于改进产品设计和性能优化。对深度学习等领域的研究者来说，关于GPU性能提升和适配的讨论有助于提高模型训练和推理效率。

详细内容：

《Reddit 热门讨论：Quad GPU 配置的多样见解与实践》

在 Reddit 上，一则关于 Quad GPU 配置的帖子引发了众多关注。该帖主展示了自己独特的 Quad GPU 装置，运行着 4 个 RTX A5000 GPU，搭配 x399 主板和 Threadripper 1950x CPU，由 1300W EVGA PSU 供电，通过 x16 pcie riser 线缆连接主板，机箱为自定义 3D 打印设计。此帖获得了大量点赞和众多评论，主要的讨论方向集中在性能优化、软件选择以及机箱配置等方面。

讨论焦点与观点分析：有人认为 vLLM 和 Tabby API 是不错的选择，比如有用户表示自己拥有 4 个 3090，在 vLLM 中使用 8 位 GPTQ llama 3.3 70b 时能得到 22 个 token/秒，认为帖主的 a5000 速度应接近此水平。也有人觉得不要去了解比 ollama 更快的东西，因为没有一个像 ollama 那样简单易用。还有用户指出使用 AWQ 与 llama 3.3 70B 4 - 位量化，2 个 3090 能达到 30t/s，认为帖主的设置至少应达到这个水平。关于模型的分层分配在不同 GPU 上的问题，有用户表示 3 个 GPU 配置会令人沮丧，因为多数模型的层数为偶数且不能被 3 整除，但也有人认为除了 VLLM 外从未遇到过问题。有用户分享道：“我已运行 3 个 GPU 一天，在等待 riser 线缆到达，过程令人烦恼。”还有人提到正在运行 Ollama，询问其他软件能快多少，以及表示自己即将通过 Thunderbolt 4 获得 3 个 eGPU 3090 并结合笔记本内置的 3080 16GB，会在获得所有部件且成功运行后分享。

总之，在这场讨论中，大家各抒己见，为 Quad GPU 的配置和应用提供了丰富的思路和经验。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#