这里的魔法酱是主板,它有5个全尺寸PCIe 3.0插槽,运行在x16、x8、x4、x16、x8。这使得安装GPU在扩展线上变得容易,无需处理分叉的麻烦。我对此非常满意,请随时提问!
规格
$250 - 二手技嘉Aorus Gaming 7主板
$120 - 二手AMD Ryzen Threadripper 2920x CPU(64 PCIe通道)
$90 - 全新Noctua NH-U9 CPU散热器和风扇
$160 - 二手EVGA 1600 G+电源
$80 - 全新1TB NVMe SSD(需要升级,存储空间不足)
$320 - 全新128GB Crucial DDR4 RAM
$90 - 全新AsiaHorse PCIe 3.0扩展线(5x)
$29 - 全新挖矿框架从亚马逊购买
$3500左右 - 二手:1x RTX 3090 Ti和4x RTX 3090
总价约为$4600美元,但实际上更多,因为我经历了几次硬件修订才达到这个状态!
其中四块3090固定在主板上方的导轨上,第五块安装在主板旁边的3D打印支架上(在TinkerCAD中设计)。
使用TabbyAPI / ExllamaV2的性能
我使用Ubuntu Linux和TabbyAPI,因为它比llama.cpp快得多(在我的测试中大约快30%,量化相同)。另外:我有两个4槽NVLink连接器,但使用NVLink/SLI比不使用NVLink/SLI每秒低0.5个令牌,所以我保持它们断开。当我进行微调时,我肯定会使用NVLink。在运行推理时,我得到这些速度:
Llama-3.1 70B 8bpw exl2 @ 128k上下文:12.67 tok/sec(大约9 tok/sec与llama.cpp)
Mistral Large 2407 6bpw exl2 @ 32k上下文:8.36 tok/sec
讨论总结
本次讨论主要围绕一个使用5块RTX 3090显卡的高性能计算机配置展开,涵盖了硬件选择、功耗管理、性能优化、软件兼容性等多个方面。用户们分享了自己的经验、测试结果和建议,讨论了电源需求、GPU功耗、PCIe通道分配、NVLink兼容性等技术细节。总体上,讨论氛围积极,用户们互相帮助,共同探讨如何构建和优化高性能计算系统。
主要观点
- 👍 电源需求和功耗管理
- 支持理由:每块RTX 3090的功耗限制在200W,运行时总功耗接近1kW。
- 反对声音:在处理大型模型时,电源可能会因为短暂的功率峰值而跳闸。
- 🔥 硬件选择和配置
- 正方观点:使用AMD Ryzen处理器和x399主板,因为它们提供足够的PCIe通道支持多GPU。
- 反方观点:避免使用消费级Intel CPU,因为其PCIe通道数不足以支持多GPU。
- 💡 性能优化和软件兼容性
- 使用TabbyAPI和ExllamaV2可以显著提高模型速度,但需要注意NVLink的使用可能会导致性能略有下降。
金句与有趣评论
- “😂 Yes! Each 3090 is limited to 200W.”
- 亮点:直接回答了关于GPU功耗的问题,简洁明了。
- “🤔 I made a lot of mistakes in the beginning, mostly out of impatience and ignorance.”
- 亮点:分享了在硬件选择和组装过程中的经验教训,具有启发性。
- “👀 No, I’m getting the expected PCIe lanes assigned to the GPUs, which according to
lspci -vv
are running in the expected x16, x8, x4, x16, x8 configuration.”- 亮点:通过实际操作验证了PCIe通道的分配,提供了具体的技术细节。
情感分析
讨论的总体情感倾向积极,用户们表现出对高性能计算机的浓厚兴趣和热情。主要分歧点在于硬件选择和配置,以及性能优化和软件兼容性。这些分歧主要源于不同的使用需求和技术背景。
趋势与预测
- 新兴话题:推测性解码和模型优化可能会引发更多讨论,特别是在提高模型速度和稳定性方面。
- 潜在影响:随着高性能计算机的普及,相关硬件和软件的优化将成为未来讨论的热点。
详细内容:
标题:独具匠心!用户分享基于二手硬件打造的超强 5x RTX 3090 GPU 矿机
在 Reddit 上,一则关于打造 5x RTX 3090 GPU 矿机的帖子引起了广泛关注。该帖子详细介绍了其构建过程,包括硬件选择、配置详情以及性能表现等方面,获得了众多用户的点赞和大量评论。
主要讨论方向包括电源供应、硬件兼容性、性能提升方法以及设备的未来规划等。核心问题在于如何在有限的预算内,构建出性能出色且稳定的多 GPU 系统。
在讨论中,关于电源的观点各不相同。有人认为 1600 瓦的电源对于 5 个 3090 GPU 和一个线程撕裂者 CPU 来说可能过低,尤其是在进行大量数据处理时可能需要额外的电源供应。但原帖作者表示经过测量,在运行推理时,其功耗在可接受范围内。
对于硬件的兼容性,如 NVLink 在 3090 和 3090 Ti 之间的使用,存在争议。有人认为可能不兼容,而原帖作者测试后发现使用 NVLink 反而会降低速度。
在性能提升方面,有用户提到了使用特定的软件设置和技术,如采用 TabbyAPI 进行推理、尝试推测解码等,能够显著提高处理速度。
也有用户分享了自己类似的构建经验和性能数据,相互比较和借鉴。例如,有的用户在 5950X 基础的配置下,通过特定的设置获得了不错的性能。
共识在于大家都认为构建这样的系统需要耐心和不断尝试,同时要根据实际需求和硬件特性进行优化。
特别有见地的观点如一位用户提到 TabbyAPI 在并行处理方面的优势,以及另一位用户关于不同量化精度模型对性能影响的分析,丰富了讨论的内容。
总的来说,这个帖子为那些热衷于构建高性能计算系统的用户提供了宝贵的经验和思路,也激发了大家对于硬件优化和性能提升的深入思考。
感谢您的耐心阅读!来选个表情,或者留个评论吧!