原贴链接

在llama.cpp的github上,人们一直在对R1 IQ1_S进行基准测试。对于TG,M2 Ultra比两个H100更快。M2 Ultra达到每秒13.88t,2个H100最佳运行速度为每秒11.53t。这很令人惊讶。至于PP处理,2个H100的情况各不相同,从0.41到137.66,而M2 Ultra为24.05。参考https://github.com/ggerganov/llama.cpp/issues/11474

讨论总结

这个讨论围绕在llama.cpp中M2 Ultra比2个H100s运行Deepseek R1 IQ1_S更快这一测试结果展开。其中包含了对这一结果是否是bug的怀疑,还涉及到量化相关的探讨,如不同量化方式的问题、量化模型运行意义的质疑,以及硬件性能方面的分析和不同硬件在各种条件下的运行速度比较等,整体氛围是在理性地探讨技术相关的问题。

主要观点

  1. 👍 认为M2 Ultra比2个H100s快是llama.cpp中的bug
    • 支持理由:评论者ortegaalfredo的9x3090在运行相关任务时速度差异大,认为存在瓶颈,所以怀疑这一结果是bug。
    • 反对声音:未在评论中体现。
  2. 🔥 IQ1_S对CUDA后端不是最佳量化
    • 正方观点:提到CUDA后端运行IQ1_S时的情况不理想。
    • 反方观点:未在评论中体现。
  3. 💡 质疑高度量化模型运行的意义,认为可能是无用且浪费时间的
    • 支持理由:配置模型花费时间精力后可能效果不佳。
    • 反对声音:存在输出退化相关论文表明权衡利弊后运行高度量化模型可能比低参数模型更好等。
  4. 🌟 认为0.41t/s可能是处理标记过少的结果
    • 支持理由:10个标记无法满足测量要求,需要100 - 500个标记才好测量。
    • 反对声音:未在评论中体现。
  5. 🤔 对M2 Ultra比2个H100s快表示惊讶并好奇原因
    • 支持理由:从硬件常规性能看这个结果意外。
    • 反对声音:未在评论中体现。

金句与有趣评论

  1. “😂 Yes that’s clearly a bug in llama.cpp.”
    • 亮点:直接表达对M2 Ultra比2个H100s快这一结果是bug的看法。
  2. “🤔 IQ1_S are seemingly not the best quants for CUDA backend. What’s with Q2K?”
    • 亮点:引出关于量化的讨论,对不同量化方式提出疑问。
  3. “👀 DanielusGamer26: Just a friendly question, What is the point of running such a heavily quantized model? Is it not useless? Isn’t it a waste of time?”
    • 亮点:直接质疑量化模型运行的意义。
  4. “💥.41t/s is probably someone processing very few tokens.”
    • 亮点:对2xH100s在PP处理中出现0.41t/s情况提出可能的原因。
  5. “😉 Ha that’s unexpected.”
    • 亮点:简洁表达对M2 Ultra比2个H100s快这一结果的意外之感。

情感分析

总体情感倾向为理性探讨。主要分歧点在于M2 Ultra比2个H100s快这一结果是否正常,一部分人认为是bug,另一部分人虽然惊讶但在寻求背后的原因。可能的原因是大家基于自己对硬件性能的理解和不同的测试经验。

趋势与预测

  • 新兴话题:IQ1_M量化理论上在2xH100中的运行以及是否比M2更快可能会引发后续讨论。
  • 潜在影响:如果继续深入研究量化模型运行相关的问题,可能会对模型优化、硬件选择等在人工智能相关领域产生影响。

详细内容:

标题:Mac M2 Ultra 在运行 Deepseek R1 IQ1_S 时表现惊人

最近,Reddit 上一个关于 Mac M2 Ultra 与 H100 在运行 Deepseek R1 IQ1_S 性能表现的帖子引发了热烈讨论。该帖子指出,在 llama.cpp github 上的基准测试中,M2 Ultra 比两个 H100 更快。M2 Ultra 每秒处理 13.88 个令牌,而两个 H100 最好的运行结果为 11.53 个令牌每秒。此帖获得了众多关注,评论数众多。

讨论的焦点主要集中在对这一结果的不同看法和个人的相关经历。有人认为这明显是 llama.cpp 的一个 bug,但也有人质疑这种结论得出的依据,并提供了相关链接进一步说明[https://github.com/ggerganov/llama.cpp/issues/11474#issuecomment-2623204343]。

有用户分享了个人经历,比如拥有 9 个 3090 显卡的情况下,运行 Deepseek 2.5 q4 能得到约 25 个令牌每秒,而运行 R1 IQ1_S 则只有 2.5 个令牌每秒,认为存在瓶颈。还有用户详细介绍了自己在 2 个 A100 显卡配置下的情况。

一些有趣或引发思考的观点也不断涌现。有人询问关于 9 个 3090 显卡系统的细节,比如主板和 PCIe 转接器等。也有人指出某些 AMD 显卡在多 GPU 情况下效果更好。

对于这一现象,有人认为 IQ1_S 可能不是 CUDA 后端的最佳量化方式,Q2K 存在问题,而 UD_IQ1 量化方式有其优势。有人提到 M2 Ultra 的 Metal 后端优化不足,以及 H100 存在的一些奇怪表现。还有用户测试了不同的配置和环境,比如在特定的游戏装备和内存条件下的性能表现。

总的来说,关于 Mac M2 Ultra 和 H100 在运行 Deepseek R1 IQ1_S 性能表现的讨论充满了多样性和争议,各方观点和经历都为进一步理解这一复杂的技术问题提供了有价值的参考。