原贴链接

这个设置的限制之一是这些消费级主板的PCI Express通道数量。其中三块GPU以x4速度运行,而一块以x1速度运行。这会影响模型的初始加载时间,但对推理似乎没有影响。

在未来一两周内,我将再添加两块GPU,使总显存达到51GB。其中一块是1080ti(11GB显存),我将其设置为主GPU来处理桌面。这为操作系统留下了一些额外的显存。

ASUS ROG STRIX B350-F GAMING主板 Socket AM4 AMD B350 DDR4 ATX $110

AMD Ryzen 5 1400 3.20GHz 4核 Socket AM4处理器 CPU $35

Crucial Ballistix 32GB (4x8GB) DDR4 2400MHz BLS8G4D240FSB.16FBD $50

EVGA 1000瓦 80Plus金牌 1000W模块化电源 $60

GeForce GTX 1080, 8GB GDDR5 $150 x 4 = $600

开放式机箱 支持6块GPU $30

SAMSUNG 870 EVO SATA SSD 250GB $30

操作系统: Linux Mint $00.00

总成本基于eBay上的好价。大约$915

优点:

-低成本 -相对较快的推理速度 -能够运行更大的模型 -能够同时运行多个和不同类型的模型 -如果运行较小模型且上下文较高,显存充足

缺点:

-峰值功耗高(超过700W) -理想功耗高(205W) -需要调整以避免单块GPU显存过载 -由于PCI Express通道有限,模型加载时间较慢 -风扇噪音大

这个设置可能不适合所有人,但它比单块更大更强大的GPU有一些优势。我发现最有趣的是能够同时运行不同类型的模型而不会在性能上受到实际惩罚。

image

Reflection-Llama-3.1-70B-IQ3_M.gguf

Reflection-Llama-3.1-70B-IQ3_M.gguf_Tokens

Yi-1.5-34B-Chat-Q6_K.gguf

Yi-1.5-34B-Chat-Q6_K.gguf_Tokens

mixtral-8x7b-instruct-v0.1.Q4_K_M.gguf

mixtral-8x7b-instruct-v0.1.Q4_K_M.gguf-Tokens

Codestral-22B-v0.1-Q8_0.gguf

Codestral-22B-v0.1-Q8_0.gguf_Tokens

Meta-Llama-3.1-8B-Instruct-Q8_0.gguf

Meta-Llama-3.1-8B-Instruct-Q8_0.gguf_Tokens

讨论总结

本次讨论主要围绕一个低成本的4路GTX 1080显卡配置的推理PC展开。讨论者们分享了各自的硬件配置和成本,并深入探讨了该配置的优缺点。优点包括低成本、较快的推理速度、能够运行更大模型和多模型同时运行等;缺点则涉及高功耗、需要调整以避免单个GPU的VRAM过载、模型加载时间慢和风扇噪音大等问题。此外,讨论中还涉及了替代方案,如使用P102-100显卡、RTX 3060等,以及编译llamacpp时使用force mmq的性能提升。总体而言,讨论氛围技术性强,参与者们积极分享经验和见解。

主要观点

  1. 👍 低成本配置的优势
    • 支持理由:低成本、较快的推理速度、能够运行更大模型和多模型同时运行。
    • 反对声音:高功耗、需要调整以避免单个GPU的VRAM过载。
  2. 🔥 显卡选择的争议
    • 正方观点:使用P102-100显卡可以节省成本,但PCIe插槽速度会影响性能。
    • 反方观点:RTX 3060在性能和价格上可能优于GTX 1080。
  3. 💡 性能优化的建议
    • 编译llamacpp时使用force mmq可以显著提升性能。
  4. 💡 功耗问题的讨论
    • 高功耗系统在闲置状态下的功耗问题,特别是对于电费敏感的用户。
  5. 💡 显存需求的分析
    • 不同量化大小对模型运行的影响,指出高量化设置下模型需要更多显存。

金句与有趣评论

  1. “😂 P104s are effectively neutered 1080s. No video out and reduced PCIe performance. Both of which don’t matter for the way you are running llms.”
    • 亮点:幽默地指出了P104显卡的局限性,但强调这对于运行大型语言模型并不影响。
  2. “🤔 I’m sort of confused OP, I’m looking at your results, and I can run basically the same models at the same speeds on a single 3060 12gb even with CPU offloading?”
    • 亮点:表达了对原帖中配置性能的困惑,引发了对量化设置和显存需求的深入讨论。
  3. “👀 This is amazing!”
    • 亮点:简洁有力地表达了对低成本配置方案的赞赏。

情感分析

讨论的总体情感倾向偏向积极,大多数参与者对低成本配置方案表示赞赏,并积极分享自己的经验和见解。主要分歧点在于显卡选择和性能优化方面,部分用户认为RTX 3060等新型显卡更具性价比,而另一部分用户则认为P102-100等旧型号显卡在特定场景下更具优势。情感氛围技术性强,参与者们对硬件配置和性能优化表现出浓厚的兴趣。

趋势与预测

  • 新兴话题:随着新型显卡的推出,未来可能会出现更多关于RTX 3060、3070等显卡在低成本配置中的应用讨论。
  • 潜在影响:低成本配置方案的普及可能会推动更多用户尝试构建自己的推理PC,从而促进相关硬件市场的发展。

详细内容:

标题:Reddit上关于低成本多 GPU 配置的热门讨论

在 Reddit 上,有一个关于构建低成本、高 VRAM 推理 PC 的热门帖子引起了众多用户的关注。该帖子详细介绍了一种使用四块 GeForce GTX 1080 显卡搭建的系统,总 VRAM 达到 35GB,总成本约为 915 美元。此帖获得了大量的点赞和评论,引发了广泛而深入的讨论。

讨论的焦点主要集中在以下几个方面: 首先,关于电源供应的选择。有人提到服务器电源价格更低且效率更高,还分享了相关的购买链接。但也有人指出在封闭式机箱中使用可能需要一些改装。 其次,在显卡配置的选择上存在多种观点。有人认为 RTX 2060 或 3060 系列是更好的选择,具有更多的 VRAM、张量核心和更好的软件支持。然而,也有人提到获取这些显卡的价格可能并不像想象中那么理想。 还有用户讨论了不同显卡组合的性能差异。比如,拥有两块 P100 和一块 P40 与四块 P100 相比,可能会有 25%到 30%的性能下降。 另外,关于系统的功耗和噪音问题也备受关注。有人指出 100 瓦的空闲功耗对于高电价地区不太友好,而一些显卡运行时的噪音也较大。

有人分享道:“作为一名在硬件领域探索多年的爱好者,我曾经尝试过多种不同的显卡组合。在 2022 年,我为了追求更高的性能,尝试了四路 RTX 3080 的配置,但发现功耗和散热成了大问题。后来我调整为双路 RTX 4090,情况得到了很大改善。”

也有人提供了相关的性能测试链接:https://www.reddit.com/r/LocalLLaMA/s/ThKmQulI2e,进一步支持了某些观点。

讨论中的共识是,构建这样的系统需要根据个人需求和实际情况进行权衡,不同的配置都有其优缺点。

特别有见地的观点是,有人提到在选择显卡时要考虑到量化大小对 VRAM 的需求,以及多卡配置对于同时运行多个模型的优势。

总的来说,这次讨论充分展示了 Reddit 用户对于低成本高性能计算设备的热情和深入思考,为广大爱好者提供了丰富的参考和借鉴。