原贴链接

最近，我觉得用支架和转接卡连在一起的三块RTX 3090不够用；我想要一个更简洁的配置和第四块3090。为此，我需要一个新的平台。我的要求是：至少四个双倍间距的PCIe x16插槽、充足的高速存储接口，理想情况下，要有高内存带宽，以便在不降低推理速度的情况下实现一定程度的CPU卸载。英特尔新的至强系列对我没有吸引力，P/E核心设置似乎更适合数据中心，而且价格很昂贵。最初我考虑过Epyc Genoa，但随着Turin的推出及其Zen 5核心以及更高的DDR5速度，我决定直接选择它。由于SP5插座的尺寸及其12个内存通道，支持完整12通道的主板牺牲了PCIe插槽。唯一符合我PCIe要求的主板ASRock GENOAD8X - 2T/TCM只有8个DIMM插槽，这意味着我们要告别整整四个内存通道。让它启动并运行是一场冒险。当时，尽管华擎声称需要更新到10.03版（甚至还无法下载），但他们还没有发布任何与Turin兼容的BIOS ROM。他们提供的测试版ROM无法刷新，毫无缘由地失败了。最终，我不得不借助ROM编程器（CH341a）并让它在10.05版上运行起来。如果有人对主板、BIOS或设置有问题，请尽管提问，我对这块主板已经熟悉得远超自己的预期了。CPU：Epyc Turin 9355P - 32核（8个CCD），256MB缓存，3.55GHz加速到4.4GHz - 从eBay的cafe.electronics购买，价格3000美元（现在约3300美元）。内存：256GB海盗船WS（CMA256GX5M8B5600C40），频率5600MHz - 1499加元（现在约2400加元 - 搞什么鬼！）

、Passmark CPU、CPU - Z信息页面 - 芯片似乎总是加速到4.4GHz，我不介意、CPU - Z基准测试 - 我的i9 9820x在4.6GHz时得分约7000。最后是一些LMStudio（0层卸载）测试：提示：“写一篇1000字关于法国首都的故事”，Llama - 3.3 - 70B - Q8，24线程。模型使用了72GB内存、Deepseek - R1 - Distill - Llama - 8B（Q8），24线程，8.55GB内存。我很乐意进行更多的测试和基准测试，只是想把这些信息分享出来，这样人们就可以获取信息并对他们想看到的内容发表意见。对于较小的模型（<20B），CPU推理非常可用，而较大的模型仍然最好留给GPU/云（我们不是早就知道这一点了）。也就是说，我们正处于一个充满希望的发展轨道上。如果有一个12 - DIMM主板（例如，超微H13 - SSL）或者双插槽设置（有待多插槽推理的改进），我们可能在一两年内看到CPU推理在每GB内存基础上与GPU具有成本竞争力。Genoa芯片在过去六个月里价格大幅下降 - 9654（96核）现在售价2500 - 3000美元 - 这使得这种情况更有可能。我对CPU推理框架的持续发展持乐观态度，因为它们可以帮助缓解当前的瓶颈：VRAM和英伟达的AI硬件垄断。我的主要问题是，对于纯推理，GPU计算能力被极大地浪费了 - 内存容量和带宽才是真正的限制因素。然而，消费者被迫花费数千美元购买越来越强大的GPU，而仅仅对于推理而言，这种强大的能力往往是不必要的。希望CPU推理不断进步！不管怎样，请告诉我你们的想法，我会尽力提供更多信息。补充：Likwid - Bench：334GB/s（likwid - bench - t load - i 128 - w M0:8GB）

讨论总结

原帖主要展示了Epyc Turin (9355P) + 256 GB / 5600 mhz的相关情况，包括硬件配置、基准测试结果等内容。评论从多个方面展开讨论，如希望原帖作者进行更多测试、对原帖中的测试数据提出质疑、比较原帖设备与其他设备的经济性和效率、探讨不同设备的性能等，整体氛围积极且富有技术交流氛围。

主要观点

👍 不同设备配置影响模型运行每秒标记数
- 支持理由：多个用户分享不同设备（如Epyc型号、内存、GPU数量不同）下的每秒标记数差异。
- 反对声音：无。
🔥 原帖设备在当前速度下经济性不佳
- 正方观点：设备价格高且大容量内存对大模型作用有限，相比MacBook Pro M4 Max性价比低。
- 反方观点：原帖作者给出新数据后，发现原帖设备比想象中更高效。
💡 PassMark内存线程测试数值可能高估
- 解释：理论最大值与测试显示值不符，可能误导，要求原帖补充likwid - bench测试结果。
🌟 原帖设备设置不错，但等待英伟达Digic更有价值
- 解释：Digic设备价格、性能、功耗有优势。
🤔 对原帖中的300GB/s数据表示怀疑
- 解释：评论者分享自己设备及运行结果，对比得出原帖数据偏低。

金句与有趣评论

“😂 1.58 on Epyc 7302 + 256gb ram + 9x3090s@10k context + fully loaded into vram = 10 - 19 t/s depending on how full context is.”
- 亮点：直观展示特定设备在特定条件下的每秒标记数情况。
“🤔 Great to see, but not that economical at these speeds, is it?”
- 亮点：简洁地对原帖设备的经济性提出疑问。
“👀 请添加the likwid - bench内存带宽测试结果，因为PassMark以在其内存线程测试中倾向于高估数值而闻名。”
- 亮点：指出原帖测试结果可能存在的问题及解决办法。
“💥 For the price of the rig (about $5000 US not including the 4x 3090s?), you could get a MacBook Pro M4 Max with 128GB Ram and run these models faster at a lot less power draw.”
- 亮点：通过对比突出原帖设备在经济性和效率方面的问题。
“😎 我使用Threadripper Pro 3955w和512GB 2666MHz内存时，运行Q4 deepseek v3每秒能得到3个token，实际带宽约为90GB/s，你的数据似乎很低，所以我认为你实际上没有达到每秒300GB。”
- 亮点：用自己的设备数据质疑原帖数据。

情感分析

总体情感倾向较为积极正面，大家积极参与技术交流。主要分歧点在于对原帖设备的性能、经济性、数据准确性等方面的看法。可能的原因是不同用户有不同的设备使用经验、对性价比的衡量标准不同以及对测试数据准确性的重视程度不同。

趋势与预测

新兴话题：新的量化方式（如Q2_K_XL动态DeepSeek量化）可能会引发后续更多关于其性能测试的讨论。
潜在影响：如果CPU推理技术不断发展，可能会打破英伟达在AI硬件方面的部分垄断，改变相关市场格局。

详细内容：

标题：Epyc Turin 平台搭建与 CPU 推理性能的热门讨论

最近，Reddit 上有一篇关于使用 Epyc Turin 9355P 搭建新平台并测试其 CPU 推理性能的帖子引发了热烈讨论。该帖子获得了众多关注，评论数众多。

原帖作者表示，为了获得更清洁的设置和容纳第四块 RTX 3090 显卡，他选择了 Epyc Turin 平台。此平台满足了他对多个 PCIe x16 插槽、高速存储接口和高内存带宽的需求。但在搭建过程中遇到了 BIOS 问题，最终通过 ROM 编程器解决。作者还分享了一系列的测试结果和基准数据，并表示 CPU 推理对于较小模型较为可用，而较大模型仍依赖 GPU/云。

讨论中的焦点观点众多。有人希望作者尝试运行特定的量化模型并报告相关数据；有人对测试结果的真实性表示怀疑；还有人关注 CPU 负载情况以及提供了相关的优化建议和参考资料。

有用户分享自己使用不同 Epyc 配置的经历，如 [Murky - Ladder8684] 提到在不同 Epyc 配置下的运行效果和相关参数。也有用户对成本、能效、扩展性等方面进行了探讨。比如 [piggledy] 认为对于这些速度而言，该配置不太经济，RAM 似乎有些过剩，相比之下，MacBook Pro M4 Max 可能更具优势；[Psychological_Ear393] 则指出 Mac 的 PCIe 通道和 RAM 扩展存在限制。

在讨论中，对于 Nvidia 的新设备 Digic 的性能和带宽，大家也各抒己见。

有人认为 CPU 推理仍不可行，也有人对未来的发展保持乐观。

总之，这场关于 Epyc Turin 平台和 CPU 推理性能的讨论展示了大家在技术探索和应用中的多样观点和思考。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#