原贴链接

** 免责声明之前就买GPU评论 **

在任何人说之前,是的,我知道GPU和VRAM比CPU+DDR5快得多/重要得多。

但不可避免的是,仍然会有人继续“GPU更好”的咆哮,所以让我澄清一下我感兴趣的几点:

  • 便携式、低配置的系统,如果需要,可以随身携带——基本上意味着任何迷你ITX外形尺寸,甚至更倾向于迷你STX/4x4/迷你PC外形尺寸。
  • 能够运行较大的模型,如Mistral Large 2407(123b)或Llama 3.1 70b,并有足够的内存剩余用于适当大小的上下文窗口。
  • 速度不是必需的。每秒0.5-2个令牌,较长的提示处理时间是可接受的。
  • 相对实惠的本地设置。900美元以下。
  • 内存可升级性是必须的。首选Occulink或PCIE访问,以便在需要时可以将某些层卸载到GPU。

使用案例/为什么:

  • 在后台/夜间运行大型模型进行各种文本处理/合成数据生成任务。不需要实时响应(但当然,除了仅使用较小的2b-13b模型外,任何可能的速度提升都是首选)。
  • LLM准备(笑):在无法访问API/互联网的情况下,备份访问能力LLM模型。
  • 电力需求不等于整个社区。
  • 不需要抵押贷款来融资。
  • 如果文明突然在僵尸末日中崩溃,一个背包+迷你PC+小型发电机+70-120b模型可以包含大量人类知识的半合理压缩/表示。

鉴于这些标准,对我来说最有意义的是使用AMD的Ryzen Zen 4/Zen 5芯片的迷你ITX SFF构建或预构建迷你PC,因为:

  • 支持双通道DDR5 DIMM/SODIMM内存,速度高达6400mhz,容量为96gb。
  • AVX-512支持,似乎提供了一些边际推理速度改进(Zen 5 9000系列芯片相比Zen 4芯片具有更好的AVX-512支持)。
  • 相对较低的功耗,根据设置从30W到300W不等。
  • 900美元以下的构建允许访问+100b大小的模型,速度较慢。
  • 一些AMD迷你PC带有Occulink端口,使得GPU加速成为可能/可行(如果需要)。
  • 英特尔CPU目前是一团糟 :(
  • ARM CPU + Linux目前不是好时机 :(

** 免责声明结束**

现在这些都解决了(仍然可能会被一些人告诉我“就买GPU”),我的问题是:

如果在一个900美元以下的预算内进行双通道仅CPU推理,如果我们想挤出一点更多的性能/推理速度,什么是首选?

  1. 平衡支出: 96GB(2x48gb)平均DDR5内存(额定5600mhz)+ 8核/高时钟CPU(如Ryzen 7700, 7900, 8700, 9700等)。理论内存带宽约为89Gb/s,不一定可持续/安全地将内存超频到6400mhz以持续运行,如果我理解正确的话。
  2. 优先考虑内存速度: 96GB高速DDR5内存(额定6400mhz或更高)+ 更便宜的6核,平均时钟AMD CPU(如7600, 8600, 9600等)。理论内存带宽略微增加到约102Gb/s…一个非常温和的~13Gb/s差异。

再次:

  • 是的,我知道服务器CPU(EPYC/XEON)提供4-12x内存通道。对我来说太大太贵了。
  • 是的,我知道GPU提供10倍更好的内存带宽。再次,对我来说太大太贵了(除非你想捐赠四个RTX 4000 Ada Generation SFF GPU!)
  • 是的,我已经有了一台Mac M1 Pro,也用它进行本地LLM。如果我有5000美元的预算,我很想买一台M2 Ultra,内存192gb。另外,在苹果硅/ARM上使用Linux很头疼。

所以,如果我们强迫自己局限于双通道,消费者设置,96gb双通道DDR5内存和AM5处理器..我们更喜欢从最大化内存速度中获得边际增加吗?还是选择更强大的CPU?

我的直觉告诉我,更高速度的内存是正确的选择,因为在CPU上进行LLM推理实际上是一个内存受限的操作。

但对于那些知道/有经验的人,请帮助我理解我的直觉是否正确,或者我是否忽略了什么。

谢谢!

讨论总结

本次讨论主要围绕在预算有限的情况下,如何选择CPU-ONLY(双通道DDR5 96GB)推理设置中的内存速度和CPU核心/速度。讨论者们提出了多种观点,包括便携性和低功耗的重要性、内存可升级性的必要性、以及AMD Ryzen Zen 4/Zen 5芯片的优势。同时,讨论中也涉及了内存速度与CPU性能的平衡,以及在实际应用中可能遇到的问题和解决方案。

主要观点

  1. 👍 便携性和低功耗是主要考虑因素
    • 支持理由:系统需要便携、低功耗且价格适中。
    • 反对声音:无
  2. 🔥 内存速度对于文本生成任务至关重要
    • 正方观点:文本生成任务通常是内存受限的,因此内存速度很重要。
    • 反方观点:无
  3. 💡 内存可升级性是必须的
    • 支持理由:内存可升级性可以满足未来需求。
    • 反对声音:无
  4. 👀 AMD Ryzen Zen 4/Zen 5芯片的优势
    • 支持理由:支持双通道DDR5 DIMM/SODIMM RAM,具有较低的功耗和较好的性能。
    • 反对声音:无
  5. 🚀 内存速度与CPU性能的平衡
    • 支持理由:需要考虑内存和CPU的平衡,以达到最佳性能。
    • 反对声音:无

金句与有趣评论

  1. “😂 Revolutionary-Bar980:Check out this post, https://www.reddit.com/r/LocalLLaMA/s/kotOooZRKP dual channel ddr5 am5 is only around 70gb of memory bandwidth.”
    • 亮点:提供了实际的内存带宽数据,帮助理解实际性能。
  2. “🤔 compilade:My intuition agrees that memory speed is important for text generation (which usually is memory-bound).”
    • 亮点:强调了内存速度在文本生成任务中的重要性。
  3. “👀 Downtown-Case-1755:Consider an MoE model like Deepseek (with a ton of RAM to go with it, of course).”
    • 亮点:建议使用MoE模型,并强调了大量RAM的必要性。

情感分析

讨论的总体情感倾向是积极的,大多数评论者都提供了有建设性的意见和建议。主要的分歧点在于内存速度和CPU核心/速度的选择上,但大多数评论者都倾向于优先考虑内存速度。可能的原因是,文本生成任务通常是内存受限的,因此内存速度的提升可以显著提高性能。

趋势与预测

  • 新兴话题:等待即将发布的Strix Halo产品,以及DDR6和CAMM2可能带来的内存带宽改进。
  • 潜在影响:这些新兴技术和产品可能会对未来的CPU-ONLY推理设置产生重大影响,提供更高的性能和更好的内存管理。