大型语言模型在消费级CPU和RAM上的运行速度如何？

我正在用3000美元的预算组装一台新电脑，用于运行大型LLMs，如mistral large 2 123b，llama 3.1 70b以及即将推出的LLMs。

最近我看了一个关于llamafile库的视频，该库可以在现代AMD和Intel CPU上以比llama.cpp快3-5倍的速度运行LLMs，他们特别提到可以在不购买昂贵GPU的情况下在CPU上实现高推理速度。

与购买两块Rtx 3090并仅拥有48gb的VRAM相比，构建一台配备256-512 GB RAM的PC并在其上运行非常大的模型会不会更便宜？

讨论总结

本次讨论主要聚焦于在消费级CPU和RAM上运行大型语言模型（LLMs）的可行性、性能和成本效益。参与者们探讨了GPU与CPU在推理速度上的差异，内存带宽对性能的影响，以及不同硬件配置的经济性。讨论中涉及了多种观点，包括GPU在推理速度上的显著优势、内存带宽对推理速度的直接影响、即使增加内存容量CPU的推理速度提升有限等。此外，还有关于是否通过构建高内存配置的PC来替代购买昂贵GPU的经济性讨论，以及对未来硬件配置的预测和建议。

主要观点

👍 GPU在推理速度上显著优于CPU
- 支持理由：GPU拥有更高的内存带宽和更多的核心，适合并行处理，从而在推理速度上远超CPU。
- 反对声音：虽然GPU速度快，但成本较高，对于不追求极致速度的用户，CPU和大量RAM可能更经济。
🔥 内存带宽对推理速度有直接影响
- 正方观点：高内存带宽可以显著提升推理速度，尤其是在处理大型模型时。
- 反方观点：即使增加内存容量，CPU的推理速度提升有限，因为其核心数量和带宽远不及GPU。
💡 即使增加内存容量，CPU的推理速度提升有限
- 解释：CPU的内存带宽和核心数量限制了其在处理大型模型时的性能，即使增加内存，速度提升也不明显。
👍 使用GPU进行推理的成本效益更高
- 支持理由：虽然GPU初始投资大，但长期来看，其高效的推理速度可以节省大量时间成本。
- 反对声音：对于预算有限或不追求极致速度的用户，CPU和大量RAM可能是更经济的选择。
🔥 内存带宽的计算和实际性能可能存在差异
- 正方观点：理论上的内存带宽计算可能与实际运行中的性能表现不一致，需要实际测试验证。
- 反方观点：实际性能通常会低于理论计算，因为存在其他硬件和软件的限制。

金句与有趣评论

“😂 DeProgrammer99：As you can see, CPUs are the devil.”
- 亮点：幽默地表达了CPU在推理速度上的不足。
“🤔 Kafke：doing inference on cpu is very slow.”
- 亮点：直接指出了CPU推理速度的缓慢。
“👀 Ill_Yam_9994：How impatient are you? Personally I find 2-3 token per second tolerable, and 5-10 fantastic.”
- 亮点：反映了不同用户对生成速度的容忍度差异。
“😂 Admirable-Star7088：I think GPUs like the 4080 and especially the 4090 are heavily overpriced.”
- 亮点：对高端GPU的价格提出了质疑。
“🤔 christianweyer：You might want to look into the llamafile project (https://github.com/Mozilla-Ocho/llamafile)."
- 亮点：推荐了一个可能提升CPU推理速度的项目。

情感分析

讨论的总体情感倾向较为中性，既有对GPU性能优势的认可，也有对CPU和大量RAM配置经济性的探讨。主要分歧点在于GPU与CPU在推理速度和经济性上的权衡。可能的原因包括不同用户对速度和成本的不同需求，以及对未来硬件技术发展的不同预期。

趋势与预测

新兴话题：llamafile项目等CPU优化技术的进一步发展可能会改变CPU在推理速度上的劣势。
潜在影响：随着大型语言模型的普及，对高性能硬件的需求将持续增长，推动硬件技术的进一步创新和成本优化。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

讨论总结

主要观点

金句与有趣评论

情感分析

趋势与预测