关于仅使用CPU（双通道DDR5 96GB）推理设置的问题：预算应优先考虑内存速度还是CPU核心/速度？

原贴链接

** 免责声明之前 “就买GPU” 评论 **

在任何人说之前，是的，我知道GPU和VRAM比CPU+DDR5快得多/重要得多。

但不可避免的是，仍然会有人继续“GPU更好”的咆哮，所以让我澄清一下我感兴趣的几点：

便携式、低配置的系统，如果需要，可以随身携带——基本上意味着任何迷你ITX外形尺寸，甚至更倾向于迷你STX/4x4/迷你PC外形尺寸。
能够运行较大的模型，如Mistral Large 2407（123b）或Llama 3.1 70b，并有足够的内存剩余用于适当大小的上下文窗口。
速度不是必需的。每秒0.5-2个令牌，较长的提示处理时间是可接受的。
相对实惠的本地设置。900美元以下。
内存可升级性是必须的。首选Occulink或PCIE访问，以便在需要时可以将某些层卸载到GPU。

使用案例/为什么：

在后台/夜间运行大型模型进行各种文本处理/合成数据生成任务。不需要实时响应（但当然，除了仅使用较小的2b-13b模型外，任何可能的速度提升都是首选）。
LLM准备（笑）：在无法访问API/互联网的情况下，备份访问能力LLM模型。
电力需求不等于整个社区。
不需要抵押贷款来融资。
如果文明突然在僵尸末日中崩溃，一个背包+迷你PC+小型发电机+70-120b模型可以包含大量人类知识的半合理压缩/表示。

鉴于这些标准，对我来说最有意义的是使用AMD的Ryzen Zen 4/Zen 5芯片的迷你ITX SFF构建或预构建迷你PC，因为：

支持双通道DDR5 DIMM/SODIMM内存，速度高达6400mhz，容量为96gb。
AVX-512支持，似乎提供了一些边际推理速度改进（Zen 5 9000系列芯片相比Zen 4芯片具有更好的AVX-512支持）。
相对较低的功耗，根据设置从30W到300W不等。
900美元以下的构建允许访问+100b大小的模型，速度较慢。
一些AMD迷你PC带有Occulink端口，使得GPU加速成为可能/可行（如果需要）。
英特尔CPU目前是一团糟 :(
ARM CPU + Linux目前不是好时机 :(

** 免责声明结束**

现在这些都解决了（仍然可能会被一些人告诉我“就买GPU”），我的问题是：

如果在一个900美元以下的预算内进行双通道仅CPU推理，如果我们想挤出一点更多的性能/推理速度，什么是首选？

平衡支出： 96GB（2x48gb）平均DDR5内存（额定5600mhz）+ 8核/高时钟CPU（如Ryzen 7700, 7900, 8700, 9700等）。理论内存带宽约为89Gb/s，不一定可持续/安全地将内存超频到6400mhz以持续运行，如果我理解正确的话。
优先考虑内存速度： 96GB高速DDR5内存（额定6400mhz或更高）+ 更便宜的6核，平均时钟AMD CPU（如7600, 8600, 9600等）。理论内存带宽略微增加到约102Gb/s…一个非常温和的~13Gb/s差异。

再次：

是的，我知道服务器CPU（EPYC/XEON）提供4-12x内存通道。对我来说太大太贵了。
是的，我知道GPU提供10倍更好的内存带宽。再次，对我来说太大太贵了（除非你想捐赠四个RTX 4000 Ada Generation SFF GPU！）
是的，我已经有了一台Mac M1 Pro，也用它进行本地LLM。如果我有5000美元的预算，我很想买一台M2 Ultra，内存192gb。另外，在苹果硅/ARM上使用Linux很头疼。

所以，如果我们强迫自己局限于双通道，消费者设置，96gb双通道DDR5内存和AM5处理器..我们更喜欢从最大化内存速度中获得边际增加吗？还是选择更强大的CPU？

我的直觉告诉我，更高速度的内存是正确的选择，因为在CPU上进行LLM推理实际上是一个内存受限的操作。

但对于那些知道/有经验的人，请帮助我理解我的直觉是否正确，或者我是否忽略了什么。

谢谢！

讨论总结

本次讨论主要围绕在预算有限的情况下，如何选择CPU-ONLY（双通道DDR5 96GB）推理设置中的内存速度和CPU核心/速度。讨论者们提出了多种观点，包括便携性和低功耗的重要性、内存可升级性的必要性、以及AMD Ryzen Zen 4/Zen 5芯片的优势。同时，讨论中也涉及了内存速度与CPU性能的平衡，以及在实际应用中可能遇到的问题和解决方案。

主要观点

👍 便携性和低功耗是主要考虑因素
- 支持理由：系统需要便携、低功耗且价格适中。
- 反对声音：无
🔥 内存速度对于文本生成任务至关重要
- 正方观点：文本生成任务通常是内存受限的，因此内存速度很重要。
- 反方观点：无
💡 内存可升级性是必须的
- 支持理由：内存可升级性可以满足未来需求。
- 反对声音：无
👀 AMD Ryzen Zen 4/Zen 5芯片的优势
- 支持理由：支持双通道DDR5 DIMM/SODIMM RAM，具有较低的功耗和较好的性能。
- 反对声音：无
🚀 内存速度与CPU性能的平衡
- 支持理由：需要考虑内存和CPU的平衡，以达到最佳性能。
- 反对声音：无

金句与有趣评论

“😂 Revolutionary-Bar980：Check out this post, https://www.reddit.com/r/LocalLLaMA/s/kotOooZRKP dual channel ddr5 am5 is only around 70gb of memory bandwidth.”
- 亮点：提供了实际的内存带宽数据，帮助理解实际性能。
“🤔 compilade：My intuition agrees that memory speed is important for text generation (which usually is memory-bound).”
- 亮点：强调了内存速度在文本生成任务中的重要性。
“👀 Downtown-Case-1755：Consider an MoE model like Deepseek (with a ton of RAM to go with it, of course).”
- 亮点：建议使用MoE模型，并强调了大量RAM的必要性。

情感分析

讨论的总体情感倾向是积极的，大多数评论者都提供了有建设性的意见和建议。主要的分歧点在于内存速度和CPU核心/速度的选择上，但大多数评论者都倾向于优先考虑内存速度。可能的原因是，文本生成任务通常是内存受限的，因此内存速度的提升可以显著提高性能。

趋势与预测

新兴话题：等待即将发布的Strix Halo产品，以及DDR6和CAMM2可能带来的内存带宽改进。
潜在影响：这些新兴技术和产品可能会对未来的CPU-ONLY推理设置产生重大影响，提供更高的性能和更好的内存管理。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

讨论总结

主要观点

金句与有趣评论

情感分析

趋势与预测