原贴链接

我想在今年年底购买硬件来运行本地大型语言模型。由于Deepseek R1让我有了更高的期望,我正在考虑更大的模型(32 - 70B或者可能是硬量化的R1)。2025年是否会有即将推出的硬件、超高效的模型、新架构等,能够以低于3000欧元的价格实现每秒10 + 个token的运行速度呢?我正在关注的有:英伟达Digits、AMD AI Max Pro 395。

讨论总结

该讨论主要围绕2025年运行大型语言模型(LLMs)相关的硬件、模型等话题展开。大家对在特定预算(如3000欧元以内)和速度(每秒10 +个标记)下运行大模型(32 - 70B等)的可行性看法不一,同时涉及到各种硬件的性能分析、性价比探讨、硬件的获取途径以及潜在的税务问题等。

主要观点

  1. 👍 2025年难以实现以特定价格和速度运行大模型
    • 支持理由:如硬件规格、内存带宽等限制因素,目前硬件发展情况推测。
    • 反对声音:无明确反对观点。
  2. 🔥 目前继续购买3090s是较好选择
    • 正方观点:从硬件性能、性价比及目前可操作性等方面考虑。
    • 反方观点:无明显反方观点,但有其他硬件推荐。
  3. 💡 以低于3000欧元实现目标较难
    • 解释:考虑到硬件成本、性能及市场情况等多方面因素。
  4. 💡 可关注M4 Ultra Mac Studio
    • 解释:作为运行本地LLM的潜在较好选择被提及。
  5. 💡 到美国无税地区购买是一种途径但可能涉及税务欺诈
    • 解释:对于购买M4 Ultra有价格优势,但未报关带回在合法性上存在争议。

金句与有趣评论

  1. “😂 My money is on disappointment.”
    • 亮点:简洁表达对2025年以特定条件运行大模型不抱希望的态度。
  2. “🤔 Ya ain’t gonna happen. Best bet is to keep buying 3090s.”
    • 亮点:直接给出在当前情况下较可行的硬件购买建议。
  3. “👀 Yeah, I don’t have high hopes for GB10. It’s probably gonna be hard to get and slow in inference speed.”
    • 亮点:对GB10的低期望,涉及获取难度和推理速度的判断。

情感分析

总体情感倾向较为理性务实,存在一定的消极倾向。主要分歧点在于对2025年能否以特定条件运行大模型以及某些硬件的性能和前景的看法不同。消极倾向的原因包括目前硬件的局限性、成本限制以及对未来硬件发展的谨慎预期;而理性务实体现在大家从硬件规格、价格、税务等多方面进行综合讨论。

趋势与预测

  • 新兴话题:中国生产低成本GPU涌入市场打败英伟达的可能性。
  • 潜在影响:如果中国真的生产出这样的GPU,将对全球硬件市场格局产生重大影响,可能会降低运行大模型的硬件成本,加速大模型的普及和应用。

详细内容:

标题:2025 年运行大型 LLM 的硬件展望在 Reddit 引发热议

在 Reddit 上,一则关于“2025 年运行大型 LLMs 该期待什么”的帖子引发了众多关注。该帖子作者表示想在今年年底购买硬件以运行本地 LLMs,还提及了对更大模型的思考以及所关注的硬件产品,如 Nvidia Digits 和 AMD AI Max Pro 395 等。此帖获得了大量的点赞和众多评论。

讨论的焦点主要集中在对未来硬件性能和能否满足需求的预期上。有人认为会失望,比如“我的钱押在失望上”;也有人觉得不太可能实现,比如“这不会发生,最好继续买 3090s”。

有用户提供了详细的分析,例如:“Digits 被宣传拥有约 1 千万亿次 FP4 运算。5090 被宣传为 3.3 千万亿次。4090 被宣传为 1.3 千万亿次。5080 是 1.8 千万亿次。所以 Digits 项目基本上是一个 ARM 处理器加上计算能力类似于 5070 并且带有 128GB 较慢的 RAM。由于带宽问题,它可能不会比能在 24GB RAM 中运行的 3090 模型运行得更快。它运行模型的速度比 4 个 3090 或 4 个 5090 慢得多,同时具有相似的 RAM 能力,成本可能与二手 4 个 3090 设备没有太大区别。它的主要好处是在低功耗下运行需要 128GB RAM 的模型。但在性能方面,它会让很多人失望。”

也有用户分享了个人经历,比如:“DeepSeek - r1 - distill - llama - 8b:q8_0 结果:我的 RTX 4080 带有 16GB VRAM(5800x3d,64GB DDR4)为 28tok/sec。我的 M4 Max 128Gb 为 54tok/sec(在 M1 Ultra 上约为 10%-20%……没有现成的准确数字)。模型越大,差距就越明显。”

有趣的观点如:“我不认为 AMD AI 会快到对大多数现有的 70B 参数有令人满意的性能。甚至对于 Digits 项目也可能如此。最大内存也太有限,无法成为真正的生活改变者。”

在这场讨论中,共识是对未来硬件能否满足需求存在较大的不确定性。特别有见地的观点是关于硬件制造商的态度以及模型架构改进的必要性的分析。

总体而言,这场关于 2025 年运行大型 LLM 硬件的讨论反映了大家对未来技术发展的期待和担忧,也展示了讨论的多样性和复杂性。