大家好,首先,我要感谢这个很棒的社区。自从第一个Llama模型泄露以来,我就一直在关注这里,并且学到了很多关于在本地运行大型语言模型(LLM)的知识。我之前就提过我的几个构建计划。在过去一年多的时间里我购买了很多硬件,但生活中其他事情让我忙碌,所以实际构建这些硬件的进度很慢。第一个构建终于完成了(至少目前是这样)。它由双Xeon E5 - 2599v4 CPU、8×64GB(512GB)的2400MT LRDIMM、四块Nvidia P40和几块2TB的M.2 SSD提供支持。所有设备都连接到Supermicro X10DRX主板上。这是一块很厉害的主板,有10个PCIe 3.0 X8插槽且都以X8速度运行。正如我在一些评论中提到的,P40的印刷电路板(PCB)和参考版1080Ti相同,有24GB显存且使用EPS电源而非6 + 8的PCIe电源接口。所以,大多数1080Ti的水冷头都能完美适配它。我正在使用Heatkiller IV FE 1080Ti水冷头和一个Heatkiller桥接器来简化管道铺设。热量通过两个360mm散热器排出,一个45mm和一个30mm串联,不过现在我觉得45mm的散热器就够了。一个[Corsair XD5泵 - 储液器](https://www.corsair.com/de/de/p/custom - liquid - cooling/cx - 9040002 - ww/hydro - x - series - xd5 - rgb - pump - reservoir - combo - cx - 9040002 - ww)提供充足的循环来保证GPU在负载下超级凉爽。电源由一个Seasonic Prime 1300W的电源供应单元(PSU)提供,所有设备都安装在一个[Xigmatek Elysium](http://old.xigmatek.com/product_detail.php?item = 9)机箱里,因为像X10DRX这样的SSI - MEB主板能适配的塔式机箱不多。我是一名软件工程师,所以我的主要关注点是编码和逻辑。所以,以下是我感兴趣的两个模型(至少对于这个设备来说)的一些基准测试结果:使用几天前(提交编号ecebbd29)的Llama.cpp对Llama 3.1 nemotorn 70B和Qwen 2.5 Coder 32B进行测试。下面就是我用llama - bench得到的数据以及相关命令。(以下为各个模型在不同测试下的结果表格数据)GPU在空闲时功率为8 - 9W,在张量并行模式下运行时从未超过130W。我将它们每个的功率限制为180W。空闲温度在20多摄氏度(高20多摄氏度),在测试负载下我看到的最高温度是40 - 41°C,散热器风扇转速约为1000rpm。泵的PWM线未连接,我让它一直全速运行。
讨论总结
原帖作者分享了Quad P40的构建以及Qwen - 2.5 - Coder - 32B和Llama 3.1 - Nemotron - 70B的基准测试情况。评论内容较为分散,有人对P40在运行LLM中的作用发表看法,有人遇到格式问题寻求帮助,还有人对硬件构建中的主板、机箱、散热等方面进行讨论,也有人询问成本估算、性能比较以及希望进行其他模型测试等,整体氛围比较积极和平和。
主要观点
- 👍 P40对资金不足又想运行大型LLM的人很有用
- 支持理由:能在有限资金下满足运行LLM需求。
- 反对声音:无。
- 🔥 原帖作者的报告很详尽值得肯定
- 正方观点:内容详细全面展示了构建和测试情况。
- 反方观点:无。
- 💡 自制小程序能动态调整P40功率和时钟速度
- 可提高运行效率,经调整运行速度有显著提升。
- 💡 P40在无手动干预下负载时不运行到P0
- 反映出P40的工作特性。
- 💡 P40电源管理效率低于当前显卡
- 在最低状态和空闲且显存加载时每卡仍消耗30 - 40w。
金句与有趣评论
- “😂 P40 is truly a lifesaver when you are poor but want to run large LLM.”
- 亮点:形象地表达出P40对资金不足者运行LLM的重要性。
- “🤔 I recently made a tiny program that dynamically adjust their power limit and clock speed according to the demand.”
- 亮点:自制程序对P40的调整功能有创新意义。
- “👀 那主板太不可思议了,我都不知道XL - ATX这种东西的存在!为构建在机箱内且安静的四P40点赞,这两点都不容易做到。”
- 亮点:表达对主板和四P40构建的惊叹与赞赏。
情感分析
[总体情感倾向积极,主要分歧点较少,大部分评论都是对原帖的正面反馈,如感谢作者的报告、赞扬构建成果等,只有少数在阐述P40性能特点时是中性的描述,未出现明显负面评价]
趋势与预测
- 新兴话题:[可能会有更多关于不同模型在该硬件上的性能测试讨论]
- 潜在影响:[为有类似硬件构建需求的人提供参考,推动相关硬件和模型优化]
详细内容:
标题:Quad P40 构建及基准测试引发的Reddit热议
这是一则在Reddit上引起众多关注的帖子。作者详细介绍了自己基于双Xeon E5-2599v4 CPU、512GB内存、四块Nvidia P40以及多个2TB M.2 SSD等硬件搭建的系统,并分享了Llama 3.1 nemotorn 70B和Qwen 2.5 Coder 32B的基准测试数据。此帖获得了大量的点赞和众多评论。
主要的讨论方向包括硬件的性能表现、能耗管理、成本估算以及不同模型的测试等。文章将要探讨的核心问题是这套硬件配置在实际应用中的优势与不足,以及如何进一步优化。
在讨论中,有人指出P40在运行大型LLM时是性价比之选,比如有用户分享自己制作的动态调整P40功率限制和时钟速度的小程序,大大提升了性能。但也有人认为这有点多此一举。
还有用户就表格的markdown格式和图片添加方式进行了交流。有人称赞主板出色,也有人好奇总成本并希望对比仅使用CPU推理的性能。
特别有用户感谢作者的详尽报告,认为帕斯卡系列很棒。
总之,这次讨论展现了大家对硬件构建和模型测试的浓厚兴趣及深入思考。
感谢您的耐心阅读!来选个表情,或者留个评论吧!