运行本地大语言模型的最佳硬件有哪些？3080？5090？Mac Mini？NVIDIA DIGITS？P40？就我的使用情况而言，我希望能够高速运行像r1 - 1776这样的先进模型。预算约为3000 - 4000美元。

讨论总结

原帖寻求3 - 4千美元预算下运行类似r1 - 1776这种大型语言模型的最佳硬件。评论者们普遍觉得原帖目标难以达成，像R1这种大模型在本地高速运行比较困难。大家给出了各种硬件选择，如Epyc服务器、3090s、Mac Studio M2等，并讨论了这些硬件在运行不同模型时的性能、性价比等情况，还涉及到硬件搭配、内存、推理速度等相关因素。

主要观点

👍 像R1这样的大型模型难以在本地高速运行且原帖想法不实际
- 支持理由：R1模型巨大，预算内难以实现高速运行，如3 - 4千美元无法购买足够的5090设备来运行R1。
- 反对声音：无。
🔥 Epyc服务器可运行R1模型但有局限性
- 正方观点：在预算有限时，Epyc服务器是运行R1的一种选择，且有大量ddr5内存。
- 反方观点：相比GPU服务器，运行小模型时Epyc服务器速度慢。
💡 3090s是运行本地LLMs不错的硬件选择
- 支持理由：2个3090s可运行特定70b模型，4个3090s可用于小模型训练或在70b模型上运行大的上下文窗口，性价比高。
- 反对声音：无。
💡 Mac Mini（64GB）和Macbook Pro（128GB）适合运行特定中型模型
- 支持理由：在3 - 4千美元预算下，能以约10 - 12T/s的速度运行约70B参数的中型模型。
- 反对声音：无。
💡 运行大型模型可考虑云资源
- 支持理由：对于很多情况，云资源可满足运行LLMs需求，无需购买昂贵硬件。
- 反对声音：对于需要本地运行来保证隐私等特殊需求则不适用。

金句与有趣评论

“😂 Wow, you are getting hallucinations before even running the LLM :)”
- 亮点：幽默地表达原帖想法不切实际。
“🤔 Big models like R1 aren’t practically able to be run at high speeds locally.”
- 亮点：直接点明大型模型本地高速运行的困难。
“👀 You CAN run them, at the end of the day you can just use hard drives instead of RAM, but you pay the price in speed.”
- 亮点：指出用硬盘替代内存运行模型会牺牲速度。
“🤔 The best hardware for running R1 is an API”
- 亮点：简洁给出与其他评论不同的硬件选择。
“👀 Amd Epyc Genoa 8CCD, 12 channel 768GB ram. up to 10t/s. can throw in one GPU to speed up prompt processing.”
- 亮点：详细给出硬件配置及GPU对提示处理的加速作用。

情感分析

总体情感倾向为理性探讨。主要分歧点在于不同硬件的选择及其对运行模型的性能影响。可能的原因是大家基于自身的经验和知识，对不同硬件的性能、成本等有不同的理解。

趋势与预测

新兴话题：探索新的硬件如Ampere CPU搭配大容量内存的可能性，虽然目前不太确定其适用性。
潜在影响：对想要在本地运行LLMs的用户在硬件选择上提供更多参考，也可能促使硬件厂商根据需求优化产品或者调整价格。

详细内容：

标题：探索本地运行 LLMs 的最佳硬件选择

在 Reddit 上，一个题为“BEST hardware for local LLMs”的帖子引起了热烈讨论。原帖提出了在预算约 3 - 4 千美元的情况下，寻找运行本地 LLMs 的最佳硬件选择，如 3080s、5090s、Mac Mini 等，并希望能够高速运行像 r1 - 1776 这样的先进模型。此帖获得了众多关注，评论数众多，引发了关于各种硬件方案的深入探讨。

讨论的焦点主要集中在不同硬件配置的性能和性价比。有人认为，在这个预算下，想高速运行像 R1 这样的大型模型不太现实，大模型如 R1 实际无法在本地高速运行，即便可以运行，速度也会因硬件限制而大打折扣。但也有用户提出不同的方案，比如使用 Epyc 服务器配备大量 DDR5 内存，或者选择配备多个 3090 显卡和廉价 Threadripper 的组合。

有用户分享道：“我曾尝试在 13900KF 上使用 128GB DDR4 3300MT/s 搭配 RTX 4090 + 3090，记得在 ollama 上运行 1.58 位 deepseek - r1 时，每秒能得到超过 1 个令牌，如果没记错的话，大约是 1.2 - 1.3 个令牌/秒。但它占用了我所有的内存，导致系统运行迟缓，而且使用 4 个 DIMM 使内存带宽从 4000MT/s 下降到我使用两个时的水平，所以我退回了 DIMM。我想如果我继续深入研究，应该选择 DDR5 平台，并以 256GB 甚至更高的内存容量为目标。”

同时，也有观点认为，对于这个预算，选择 EPYC Rome/Milan 搭配 512GB - 1TB DDR4 3200 可能是唯一的途径。还有人推荐使用翻新的 Mac Studio M2 或 AMD 企业解决方案等。

讨论中的共识在于，在给定的预算范围内，要达到高速运行像 r1 - 1776 这样的大型模型具有很大的难度。特别有见地的观点如 xor_2 提出，对于大多数情况，没必要为运行大型模型进行巨大投资，未来硬件的发展会使运行更大的模型成为可能。

总之，关于在有限预算下运行本地 LLMs 的最佳硬件选择，Reddit 上的讨论呈现出多样化和复杂性，不同观点的碰撞为寻求解决方案提供了丰富的思路。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#