原贴链接

我看到一个帖子讲如何用游戏主机通过直接从固态硬盘读取权重来进行Q2 R1推理。这是个很巧妙的技术,我也想分享一下我用常规EPYC工作站配置进行CPU推理的经验。这个配置有不错的内存容量和相对较好的CPU推理性能,同时也为GPU或SSD扩展提供了很好的基础。作为工作站而非服务器意味着这个设备应该很容易操作并融入你的卧室。我正在使用Q4KM GGUF,还在我的7773X上试验打开和关闭核心/CCD/SMT,尝试不同的上下文长度以更好地理解极限在哪里,但3T/s似乎是极限,因为一切仍然极度受内存带宽的限制。CPU:任何超过32核的米兰(Milan)EPYC应该都可以。这些东西的价格因部件号以及是工程样品(ES)/质量认证(QS)/原始设备制造商(OEM)/量产芯片而有很大差异。我推荐购买ES或OEM的64核变体,有些价格在500 - 600美元。一些最便宜的32核OEM型号可以低至200 - 300美元。购买前一定要询问卖家CPU/主板/BIOS版本的兼容性。千万不要购买联想或戴尔锁定的EPYC芯片,除非你知道自己在做什么!它们永远无法在消费级主板上工作。罗马(Rome)EPYC也可以,因为它们也支持DDR4 3200,但与米兰相比,它们不太便宜且CPU性能低不少。这里有几个可超频的ES/OEM罗马芯片,如32核ZS1711E3VIVG5和100 - 000000054 - 04,64核ZS1406E2VJUG5和100 - 000000053 - 04。我有ZS1711和54 - 04,把它们超频到全核3.7GHz非常有趣,如果你能以合理价格找到一个,它们也是很好的选择。主板:H12SSL价格约为500 - 600美元,ROMED8 - 2T价格为600 - 700美元。我推荐ROMED8 - 2T,因为它有总共7个x16 PCIe接口,而H12SSL是5个x16+2个x8。DRAM:这是应该花最多钱的地方。你需要购买8根64GB DDR4 3200MT/s RDIMM(带寄存器的双列直插式内存模块)。必须是RDIMM,而且必须是相同型号的内存。每根价格约为100 - 125美元,所以总共应该在内存上花费800 - 1000美元。这将给你512GB容量和200GB/s带宽。我买的内存是HMAA8GR7AJR4N - XN,它与我的ROMED8 - 2T配合得很好。你不必从主板厂商的QVL(合格供应商列表)中选择,只需用作参考。3200MT/s不是严格要求,如果预算紧张,可以降到2933或2666。另外,我会避免64GB LRDIMM(低负载双列直插式内存模块)。它们是DDR4时代早期的内存模块,当时每个DRAM芯片密度仍然较低,所以每个DRAM封装内有2或4个芯片(DDP或3DS),它们上面的缓冲器也是额外的故障点。128GB和256GB LRDIMM是DDR4的前沿产品,但非常昂贵且难以找到。8x64GB对于Q4推理足够了。CPU散热器:我会把这里的花费限制在50美元左右。任何SP3散热器应该都可以。如果你购买了280W TDP(热设计功耗)的CPU,可以考虑更好的散热器,但没必要超过100美元。电源(PSU):这个系统应该是将来安装更多GPU的基础。我会从一个相当强大的电源开始,也许1200W左右。我认为200美元左右是个不错的购买价位。存储:任何2TB以上的NVME固态硬盘应该都相当灵活,现在它们相当便宜。100美元。机箱:我推荐一个支持双电源的全塔机箱。我强烈推荐联力(Lianli)的o11和o11 XL系列。它们相当昂贵但做得很好。200美元。总之,从头开始构建这个整个配置应该花费2000 - 2500美元,不比现在一个4090贵太多。它可以在可用的上下文长度下进行Q4 R1推理,并且将是未来本地推理的一个很好的起点。提供的7个x16 PCIe Gen4扩展非常方便,一旦你能买得起更多GPU就可以做更多事情。我也在考虑测试一些旧的至强(Xeon),比如运行双E5v4,它们现在非常便宜。一旦运行起来我会发布一些结果!

讨论总结

原帖介绍了一种相对预算的671B R1 CPU推理工作站设置,涉及CPU、主板、内存等各部件的选择。评论者们从不同角度展开讨论,如有人提出云计算作为替代方案,有人分享自己的硬件使用体验,也有人对原帖中的部分观点如内存选择、带宽数据等提出质疑,整体氛围理性且务实。

主要观点

  1. 👍 原帖推荐的工作站设置在预算范围内可作为本地推理的起点
    • 支持理由:给出了各硬件的选型和大致价格,可实现Q4 R1推理并有一定的扩展潜力。
    • 反对声音:无。
  2. 🔥 Azure存在便宜的虚拟机竞价实例可作为替代方案
    • 正方观点:价格便宜(每小时0.7美元)且虚拟机规格较大,适合想尝试相关操作的人。
    • 反方观点:无。
  3. 💡 第一代至强与Zen架构相比如同电子垃圾
    • 理由:评论者自身使用双路至强V3性能糟糕,认为与Zen架构相比第一代至强性能差。
    • 反对声音:无。
  4. 💡 8通道以上内存使用需谨慎,应参考主板QVL列表
    • 理由:评论者自身有512GB内存只能以1600mhz启动的经历。
    • 反对声音:原帖认为不必从主板QVL列表选择内存。
  5. 💡 DDR5带宽更有优势,原帖选择DDR4值得商榷
    • 理由:DDR5能提供更多带宽。
    • 反对声音:原帖是预算导向的CPU - only推理解决方案,DDR4按GB计算更为实惠。

金句与有趣评论

  1. “😂 The fact you still mention 4090 the week that 5090’s came out made me lol…”
    • 亮点:诙谐地指出原帖在5090推出当周还提及4090。
  2. “🤔 我有双路至强V3,它们很糟糕。”
    • 亮点:直接表达对双路至强V3性能的不满。
  3. “👀 原帖作者:for my use case (knowledge Q&A), the 8K context is plenty for me.”
    • 亮点:明确原帖作者对于自身知识问答场景下8K上下文足够的观点。
  4. “🤔 emprahsFury:Dont buy anything but ddr5. If the problem is memory bandwidth then you are gimping yourself by choosing to buy the weakest version of the most important thing. It’s bad enough for someone to make the mistake, but to actively recommend other people do it is practically malicious.”
    • 亮点:强烈反对原帖推荐DDR4内存的做法。
  5. “👀 我强烈不同意你关于不从主板QVL列表获取内存的评论,它们和消费级主板不一样。8个以上通道的内存可能很棘手。”
    • 亮点:表达对原帖不参考主板QVL列表选内存观点的不认同。

情感分析

总体情感倾向为中性。主要分歧点在于原帖中的一些硬件推荐和观点,如DDR4内存的选择、是否参考主板QVL列表选内存等。可能的原因是不同用户基于自身的经验、预算和需求,对硬件的要求和理解存在差异。

趋势与预测

  • 新兴话题:寻找支持DDR5且价格合理的芯片组可能引发后续讨论。
  • 潜在影响:对计算机硬件爱好者构建类似工作站有参考价值,可能影响硬件市场的消费倾向。

详细内容:

标题:相对预算的 671B R1 CPU 推理工作站设置讨论引发热议

在 Reddit 上,一篇关于相对预算的 671B R1 CPU 推理工作站设置的帖子引起了众多网友的关注。该帖介绍了如何通过常规 EPYC 工作站设置实现较好的内存容量和相对不错的 CPU 推理性能,同时为 GPU 或 SSD 扩展提供良好基础,整个设置成本约 2000 - 2500 美元。此帖获得了大量点赞和众多评论。

讨论焦点与观点分析: 有人指出可以在 Azure 上以相当便宜的价格获得某些大型 VM 尺寸的临时价格,如果只是想尝试一下。也有人表示希望能有相关的指南。

有人分享自己使用双至强 V3 的体验,认为它们很糟糕,而 V4 可能会好一点,但第一代至强与 Zen 相比表现不佳。还有人提到在自己所在地区,32 核的 Milan 价格是 32 核 Rome 的 3 倍,质疑哪里能买到便宜的 Zen3。但也有人表示可以在 eBay 上寻找 ES 和 OEM 的 Milans。

有人询问能否用解锁的 epycs 对内存进行超频,有人表示自己无法用至强做到。

对于“可用上下文长度”的含义,有人提出疑问,作者解释对于自己的知识问答用例,8K 上下文足够,还能加载 16K 上下文到内存,使用 Q4KM gguf 时,总内存使用约 480GB,16K 上下文能达到约 2.5T/s。

有人认为 200GB/s 是理论值而非实际值,有人拿 5090TI 作类比。

有人分享自己使用 EPYC 7702 和 H11SSL 以及 256GB 内存和 2 个 3090 运行 R1 Q2 的情况,认为内存有限,不同意不从主板 QVL 列表中获取内存的观点,并推荐了 Arctic Freezer 4u - M 散热器。作者则表示自己过去在内存插入方面比较幸运,但也强调遵循 QVL 是安全选择,同时在散热方面,更高级的散热器会有更好体验。

有人指出在 5090 推出的当周还提及 4090 很有趣。

有人强烈建议只买 DDR5,认为推荐 DDR4 是恶意的。作者回应称推荐是基于预算考虑,DDR5 单条 64GB 价格昂贵,而同等价格能购买多个 V100 用于扩展。

有人询问 8 个 SXM2 板的推荐,称自己花了一周找工作站,不知道如何选择。

有人质疑为何选择 DDR4 而非 DDR5,有人解释因为 EPYC Milan 只支持 DDR4,还有人指出内存控制器集成在 CPU 中,芯片组与内存支持无关,也有人认为 DDR4 每 GB 更实惠。

有人分享了适用于 ROMED8-2T 主板的 128GB DIMM 的 Hynix 模块个人经历。

讨论中的共识是在预算和性能之间需要权衡,不同观点的碰撞为大家提供了更多思考和选择的方向。特别有见地的观点如作者基于预算的推荐方案,以及对于内存和芯片支持的深入解释,丰富了讨论内容。