总结(tl;dr):在Koboldcpp中运行ggufs,M3(速度)略慢?提示处理稍快,但在所有模型中的提示写入较慢。编辑:我在底部添加了Llama.cpp的对比运行结果;速度与Kobold大致相同。# 设置:推理引擎:Koboldcpp 1.85.1;文本:所有模型使用相同文本。标记大小差异是由于标记器差异;温度(Temp):0.01;禁用所有其他采样器。# 计算机:M3 Ultra 512GB 80个GPU核心;M2 Ultra 192GB 76个GPU核心。并给出各模型(Llama 3.1 8b q8、Mistral Small 24b q8、Qwen2.5 32b Coder q8(含和不含推测解码)、Llama 3.3 70b q8(含和不含推测解码))在M2 Ultra和M3 Ultra上的各项性能数据(包括上下文限制(CtxLimit)、数量(Amt)、初始化(Init)、处理(Process)、生成(Generate)、总计(Total)等时间以及对应的每秒处理标记数(T/s)等),最后还给出了Llama.cpp服务器对比运行(针对Llama 3.3 70b q8无推测解码)在M2 Ultra和M3 Ultra上的提示评估时间、评估时间和总时间等数据。
讨论总结
原帖比较了M2 Ultra和M3 Ultra在Koboldcpp中的速度,结果显示M3 Ultra在某些方面比M2 Ultra更慢。评论者们围绕这个结果展开了广泛的讨论,涉及到对结果的惊讶、质疑,如认为M3 Ultra应该更快;也有对测试方法和环境的讨论,例如是否应该使用MLX、Kobold是否优化良好等;还有基于这个结果对设备选择的看法,像是否购买二手M2 Ultra、M1 Ultra是否是个好选择等,讨论氛围活跃且充满技术探讨的氛围。
主要观点
- 👍 M3 Ultra在测试中的速度表现不佳令人意外
- 支持理由:大多数人认为M3 Ultra应该比M2 Ultra快,结果却相反,很多评论者都表达了这种意外之感。
- 反对声音:部分评论者认为在内存带宽相同的情况下,这个结果是可预见的,数据差异在正常范围内。
- 🔥 可以考虑购买二手M2 Ultra
- 正方观点:M3 Ultra速度未达预期,相比之下二手M2 Ultra可能是更好的选择,价格可能更合适。
- 反方观点:无(未在评论中发现明确反对观点)
- 💡 对原帖数据表示怀疑
- 一些评论者指出自己设备的运行速度与原帖数据对比后存在疑问,如Hoodfu根据自己M2 Max的运行速度对原帖M2 Ultra的数据表示怀疑。
金句与有趣评论
- “😂 Damn that is not good news. Ah well, maybe time to get a M2 Ultra on resale”
- 亮点:直白地表达出对M3 Ultra速度结果的失望,并迅速想到可以购买二手M2 Ultra。
- “🤔 Maybe Kobold isn’t optimized?”
- 亮点:提出了对Koboldcpp的质疑,为M3 Ultra速度不理想提供了一种可能的解释方向。
- “👀 I’m not sure these numbers make sense.”
- 亮点:简单直接地表达了对原帖数据的怀疑态度。
情感分析
总体情感倾向较为复杂。一方面,很多评论者对M3 Ultra速度未达预期表示失望、惊讶、质疑,这部分占比较大;另一方面,也有部分评论者认为这个结果是可接受的,在正常范围内,没有改变对Mac的看法。主要分歧点在于对M3 Ultra速度结果的预期和解读,可能的原因是不同评论者对设备性能提升的期望不同,以及各自使用设备的经验和场景有所差异。
趋势与预测
- 新兴话题:对M4 Ultra的期待,有评论者提出应该发布M4 Ultra,这可能会引发后续关于M4 Ultra性能预期的讨论。
- 潜在影响:如果更多人认为M3 Ultra的性能提升不符合预期,可能会影响苹果相关产品在特定用户群体(如对设备性能要求较高的用户)中的销售策略或者市场口碑。
详细内容:
标题:Mac M2 Ultra 与 M3 Ultra 在运行 KoboldCpp 时的速度对比引发热烈讨论
在 Reddit 上,一则关于“Mac Speed Comparison: M2 Ultra vs M3 Ultra using KoboldCpp”的帖子引起了广泛关注。该帖子详细对比了 M2 Ultra 和 M3 Ultra 在运行 KoboldCpp 时的性能数据,获得了大量的点赞和评论。
帖子中,作者对多个模型进行了测试,包括 Llama 3.1 8b q8、Mistral Small 24b q8、Qwen2.5 32b Coder q8 等,给出了 M2 Ultra 和 M3 Ultra 在不同模型下的详细处理时间、生成时间和总时间等数据。
讨论焦点主要集中在 M3 Ultra 的性能表现上。有人认为可能是 Kobold 没有优化,也有人提到应该尝试 MLX 等其他方案。还有用户分享了自己在不同配置下的使用经历,如在 M1 上直接运行 llama.cpp 或 native MLX 能获得较好性能。
有用户指出,在 M2 Max 上能获得比帖子中更高的输出速度,对 M3 Ultra 的表现表示质疑。也有用户认为 M3 Ultra 的性能提升不明显,可能与内存带宽、优化等因素有关。
例如,有人表示:“作为一名长期使用 Mac 的用户,我对这次 M3 Ultra 的性能提升感到失望。原本期待能有更显著的改进,但实际情况却不尽如人意。”
还有用户提到:“我觉得不能单纯从这些数据就下结论,也许还有其他因素影响着性能表现。”
不过,也有人认为这种性能差异在合理范围内,毕竟各个组件之间存在细微差别。
总体而言,关于 M2 Ultra 和 M3 Ultra 在运行 KoboldCpp 时的性能对比,讨论仍在继续,大家都在试图找出影响性能的关键因素和可能的优化方案。
感谢您的耐心阅读!来选个表情,或者留个评论吧!