原贴链接

我受到推特上‘6000美元的DeepSeek机器’话题的启发,深入研究基于CPU的本地大型语言模型服务器,偶然看到有关AMD宣传的内存带宽是虚假的评论,以及低CCD数量通常无法充分利用12条内存通道,很多人还说双插槽并不能真正提高推理速度。这是否意味着购买更高CCD数量(9175)会比以较低CCD数量运行两倍核心数量(9115/9135)性能更好?那24个内存插槽是否仍是最优选择,还是更少但更大的内存插槽效果会更好?

讨论总结

这是一个关于Zen CPUs用于LLM时,更高CCD计数是否比运行双CPU更好的讨论。参与者从不同角度分享了自己的看法,包括硬件的性价比、实际使用中的性能表现、不同硬件组合在LLM推理中的效果等内容,大家理性地交流各自的经验和观点。

主要观点

  1. 👍 花6000美元用于CPU推理不值得用于实时聊天
    • 支持理由:CPU推理在软件支持方面存在不足,扩展性差。
    • 反对声音:无。
  2. 🔥 5955因CCD数量少表现不佳,5965速度更快
    • 正方观点:实际使用中5965比5955速度快约50%。
    • 反方观点:无。
  3. 💡 核心集中时速度更快,跨CPU会使速度变慢
    • 更多核心集中在一起数据传输更快,跨CPU调用资源会产生速度损耗。
  4. 💡 双CPU不是经济的设置
    • 双CPU设置对于MoE是1.3倍效果,对于密集模型是1.8倍效果,MoE更适合CPU。
  5. 💡 过少核心不能充分利用内存带宽
    • 在令牌生成方面,核心过少会影响内存带宽的利用。

金句与有趣评论

  1. “😂 IMO, and I say this as someone who has a dual Epyc Rome system, it’s not worth spending 6k for CPU inference, especially if your expectation is to use it for "real - time" chat.”
    • 亮点:以自身拥有双Epyc Rome系统的经历来说明高成本CPU推理不值得用于实时聊天。
  2. “🤔 我之前买了个5955,那是个错误,因为它只有2个CCD。”
    • 亮点:以自身购买经历强调CCD数量对CPU性能的影响。
  3. “👀 更多核心集中在一起 = 更快。如果必须跳转到另一个CPU,速度就会更慢。”
    • 亮点:简洁地阐述了核心分布与速度的关系。
  4. “💡 The fine print says u need 8 ccd to have the advertised bandwidth.”
    • 亮点:指出AMD内存带宽宣称背后的细则要求。
  5. “😉 对于这样的用例,即使是单个Epyc Rome也足够了。”
    • 亮点:针对特定用例给出硬件选择建议。

情感分析

总体情感倾向为中性,大家主要是在理性地分享自己的经验和观点。主要分歧点在于不同CPU配置的性价比和性能表现上,原因是不同的用户有不同的使用场景和需求,例如有的用户是离线批量处理问题,有的则关注实时聊天场景下的CPU推理性能。

趋势与预测

  • 新兴话题:ktransformers在英特尔AMX上的成果以及在预填充阶段的巨大改进可能引发后续对不同硬件平台和软件优化的讨论。
  • 潜在影响:如果更多用户认可在已有128GB高速VRAM的情况下提升CPU性能比再购买GPU更合适这一观点,可能会影响硬件市场的消费倾向。

详细内容:

标题:关于 Zen CPU 用于 LLM 的热门讨论:CCD 数量与双 CPU 的抉择

在 Reddit 上,一则关于“Zen CPUs for LLM: Is higher CCD count better than running 2 CPUs?”的帖子引发了众多网友的热烈讨论。该帖子获得了大量的关注,评论数众多。

帖子主要探讨了在构建基于 CPU 的本地 LLM 服务器时,是选择更高 CCD 数量(如 9175),还是运行具有较低 CCD 计数但核心数量翻倍(如 9115/9135)的双 CPU 配置,哪种方式能提供更好的性能,以及内存插槽数量和大小的优化问题。

讨论的焦点观点主要有以下几个方面: 有人认为,花费 6000 美元用于 CPU 推理并不值得,特别是对于期望实现“实时”聊天的情况,因为 CPU 推理在软件支持方面仍有很大的不足,而且成本效益比很差。 也有人指出,新的 Epyc 的优势取决于上下文和输出的量,因为 AVX512 能让预处理获得更好的加速。 还有人分享了个人经历,比如有人买了 5955 后发现只有 2 个 CCD 是个错误,换成 5965 后速度提升了约 50%;有人运行 3945wx 时 CPU 成为瓶颈,购买 5995wx 希望能改善状况等。

有人提出更核心靠近一起速度更快,跳到另一个 CPU 则较慢,而且更多核心更好。但也有人认为双 CPU 配置在目前的改进仍在研究中,对于 MoE 模型,双 CPU 配置提升约 1.3 倍,对于密集模型提升约 1.8 倍,目前来看双 CPU 配置在经济上不太划算。

讨论中的共识在于大家都在关注如何在有限的预算内实现最优的性能配置。

特别有见地的观点如有人认为需要根据具体的应用场景和需求来权衡 CPU 的选择。

总体而言,这次关于 Zen CPU 用于 LLM 的讨论展现了大家对于硬件配置和性能优化的深入思考和探索。