原贴链接

运行本地大语言模型的最佳硬件有哪些?3080?5090?Mac Mini?NVIDIA DIGITS?P40?就我的使用情况而言,我希望能够高速运行像r1 - 1776这样的先进模型。预算约为3000 - 4000美元。

讨论总结

原帖寻求3 - 4千美元预算下运行类似r1 - 1776这种大型语言模型的最佳硬件。评论者们普遍觉得原帖目标难以达成,像R1这种大模型在本地高速运行比较困难。大家给出了各种硬件选择,如Epyc服务器、3090s、Mac Studio M2等,并讨论了这些硬件在运行不同模型时的性能、性价比等情况,还涉及到硬件搭配、内存、推理速度等相关因素。

主要观点

  1. 👍 像R1这样的大型模型难以在本地高速运行且原帖想法不实际
    • 支持理由:R1模型巨大,预算内难以实现高速运行,如3 - 4千美元无法购买足够的5090设备来运行R1。
    • 反对声音:无。
  2. 🔥 Epyc服务器可运行R1模型但有局限性
    • 正方观点:在预算有限时,Epyc服务器是运行R1的一种选择,且有大量ddr5内存。
    • 反方观点:相比GPU服务器,运行小模型时Epyc服务器速度慢。
  3. 💡 3090s是运行本地LLMs不错的硬件选择
    • 支持理由:2个3090s可运行特定70b模型,4个3090s可用于小模型训练或在70b模型上运行大的上下文窗口,性价比高。
    • 反对声音:无。
  4. 💡 Mac Mini(64GB)和Macbook Pro(128GB)适合运行特定中型模型
    • 支持理由:在3 - 4千美元预算下,能以约10 - 12T/s的速度运行约70B参数的中型模型。
    • 反对声音:无。
  5. 💡 运行大型模型可考虑云资源
    • 支持理由:对于很多情况,云资源可满足运行LLMs需求,无需购买昂贵硬件。
    • 反对声音:对于需要本地运行来保证隐私等特殊需求则不适用。

金句与有趣评论

  1. “😂 Wow, you are getting hallucinations before even running the LLM :)”
    • 亮点:幽默地表达原帖想法不切实际。
  2. “🤔 Big models like R1 aren’t practically able to be run at high speeds locally.”
    • 亮点:直接点明大型模型本地高速运行的困难。
  3. “👀 You CAN run them, at the end of the day you can just use hard drives instead of RAM, but you pay the price in speed.”
    • 亮点:指出用硬盘替代内存运行模型会牺牲速度。
  4. “🤔 The best hardware for running R1 is an API”
    • 亮点:简洁给出与其他评论不同的硬件选择。
  5. “👀 Amd Epyc Genoa 8CCD, 12 channel 768GB ram. up to 10t/s. can throw in one GPU to speed up prompt processing.”
    • 亮点:详细给出硬件配置及GPU对提示处理的加速作用。

情感分析

总体情感倾向为理性探讨。主要分歧点在于不同硬件的选择及其对运行模型的性能影响。可能的原因是大家基于自身的经验和知识,对不同硬件的性能、成本等有不同的理解。

趋势与预测

  • 新兴话题:探索新的硬件如Ampere CPU搭配大容量内存的可能性,虽然目前不太确定其适用性。
  • 潜在影响:对想要在本地运行LLMs的用户在硬件选择上提供更多参考,也可能促使硬件厂商根据需求优化产品或者调整价格。

详细内容:

标题:探索本地运行 LLMs 的最佳硬件选择

在 Reddit 上,一个题为“BEST hardware for local LLMs”的帖子引起了热烈讨论。原帖提出了在预算约 3 - 4 千美元的情况下,寻找运行本地 LLMs 的最佳硬件选择,如 3080s、5090s、Mac Mini 等,并希望能够高速运行像 r1 - 1776 这样的先进模型。此帖获得了众多关注,评论数众多,引发了关于各种硬件方案的深入探讨。

讨论的焦点主要集中在不同硬件配置的性能和性价比。有人认为,在这个预算下,想高速运行像 R1 这样的大型模型不太现实,大模型如 R1 实际无法在本地高速运行,即便可以运行,速度也会因硬件限制而大打折扣。但也有用户提出不同的方案,比如使用 Epyc 服务器配备大量 DDR5 内存,或者选择配备多个 3090 显卡和廉价 Threadripper 的组合。

有用户分享道:“我曾尝试在 13900KF 上使用 128GB DDR4 3300MT/s 搭配 RTX 4090 + 3090,记得在 ollama 上运行 1.58 位 deepseek - r1 时,每秒能得到超过 1 个令牌,如果没记错的话,大约是 1.2 - 1.3 个令牌/秒。但它占用了我所有的内存,导致系统运行迟缓,而且使用 4 个 DIMM 使内存带宽从 4000MT/s 下降到我使用两个时的水平,所以我退回了 DIMM。我想如果我继续深入研究,应该选择 DDR5 平台,并以 256GB 甚至更高的内存容量为目标。”

同时,也有观点认为,对于这个预算,选择 EPYC Rome/Milan 搭配 512GB - 1TB DDR4 3200 可能是唯一的途径。还有人推荐使用翻新的 Mac Studio M2 或 AMD 企业解决方案等。

讨论中的共识在于,在给定的预算范围内,要达到高速运行像 r1 - 1776 这样的大型模型具有很大的难度。特别有见地的观点如 xor_2 提出,对于大多数情况,没必要为运行大型模型进行巨大投资,未来硬件的发展会使运行更大的模型成为可能。

总之,关于在有限预算下运行本地 LLMs 的最佳硬件选择,Reddit 上的讨论呈现出多样化和复杂性,不同观点的碰撞为寻求解决方案提供了丰富的思路。