原贴链接

总结（tl;dr）：在Koboldcpp中运行ggufs，M3（速度）略慢？提示处理稍快，但在所有模型中的提示写入较慢。编辑：我在底部添加了Llama.cpp的对比运行结果；速度与Kobold大致相同。# 设置：推理引擎：Koboldcpp 1.85.1；文本：所有模型使用相同文本。标记大小差异是由于标记器差异；温度（Temp）：0.01；禁用所有其他采样器。# 计算机：M3 Ultra 512GB 80个GPU核心；M2 Ultra 192GB 76个GPU核心。并给出各模型（Llama 3.1 8b q8、Mistral Small 24b q8、Qwen2.5 32b Coder q8（含和不含推测解码）、Llama 3.3 70b q8（含和不含推测解码））在M2 Ultra和M3 Ultra上的各项性能数据（包括上下文限制（CtxLimit）、数量（Amt）、初始化（Init）、处理（Process）、生成（Generate）、总计（Total）等时间以及对应的每秒处理标记数（T/s）等），最后还给出了Llama.cpp服务器对比运行（针对Llama 3.3 70b q8无推测解码）在M2 Ultra和M3 Ultra上的提示评估时间、评估时间和总时间等数据。

讨论总结

原帖比较了M2 Ultra和M3 Ultra在Koboldcpp中的速度，结果显示M3 Ultra在某些方面比M2 Ultra更慢。评论者们围绕这个结果展开了广泛的讨论，涉及到对结果的惊讶、质疑，如认为M3 Ultra应该更快；也有对测试方法和环境的讨论，例如是否应该使用MLX、Kobold是否优化良好等；还有基于这个结果对设备选择的看法，像是否购买二手M2 Ultra、M1 Ultra是否是个好选择等，讨论氛围活跃且充满技术探讨的氛围。

主要观点

👍 M3 Ultra在测试中的速度表现不佳令人意外
- 支持理由：大多数人认为M3 Ultra应该比M2 Ultra快，结果却相反，很多评论者都表达了这种意外之感。
- 反对声音：部分评论者认为在内存带宽相同的情况下，这个结果是可预见的，数据差异在正常范围内。
🔥 可以考虑购买二手M2 Ultra
- 正方观点：M3 Ultra速度未达预期，相比之下二手M2 Ultra可能是更好的选择，价格可能更合适。
- 反方观点：无（未在评论中发现明确反对观点）
💡 对原帖数据表示怀疑
- 一些评论者指出自己设备的运行速度与原帖数据对比后存在疑问，如Hoodfu根据自己M2 Max的运行速度对原帖M2 Ultra的数据表示怀疑。

金句与有趣评论

“😂 Damn that is not good news. Ah well, maybe time to get a M2 Ultra on resale”
- 亮点：直白地表达出对M3 Ultra速度结果的失望，并迅速想到可以购买二手M2 Ultra。
“🤔 Maybe Kobold isn’t optimized?”
- 亮点：提出了对Koboldcpp的质疑，为M3 Ultra速度不理想提供了一种可能的解释方向。
“👀 I’m not sure these numbers make sense.”
- 亮点：简单直接地表达了对原帖数据的怀疑态度。

情感分析

总体情感倾向较为复杂。一方面，很多评论者对M3 Ultra速度未达预期表示失望、惊讶、质疑，这部分占比较大；另一方面，也有部分评论者认为这个结果是可接受的，在正常范围内，没有改变对Mac的看法。主要分歧点在于对M3 Ultra速度结果的预期和解读，可能的原因是不同评论者对设备性能提升的期望不同，以及各自使用设备的经验和场景有所差异。

趋势与预测

新兴话题：对M4 Ultra的期待，有评论者提出应该发布M4 Ultra，这可能会引发后续关于M4 Ultra性能预期的讨论。
潜在影响：如果更多人认为M3 Ultra的性能提升不符合预期，可能会影响苹果相关产品在特定用户群体（如对设备性能要求较高的用户）中的销售策略或者市场口碑。

详细内容：

标题：Mac M2 Ultra 与 M3 Ultra 在运行 KoboldCpp 时的速度对比引发热烈讨论

在 Reddit 上，一则关于“Mac Speed Comparison: M2 Ultra vs M3 Ultra using KoboldCpp”的帖子引起了广泛关注。该帖子详细对比了 M2 Ultra 和 M3 Ultra 在运行 KoboldCpp 时的性能数据，获得了大量的点赞和评论。

帖子中，作者对多个模型进行了测试，包括 Llama 3.1 8b q8、Mistral Small 24b q8、Qwen2.5 32b Coder q8 等，给出了 M2 Ultra 和 M3 Ultra 在不同模型下的详细处理时间、生成时间和总时间等数据。

讨论焦点主要集中在 M3 Ultra 的性能表现上。有人认为可能是 Kobold 没有优化，也有人提到应该尝试 MLX 等其他方案。还有用户分享了自己在不同配置下的使用经历，如在 M1 上直接运行 llama.cpp 或 native MLX 能获得较好性能。

有用户指出，在 M2 Max 上能获得比帖子中更高的输出速度，对 M3 Ultra 的表现表示质疑。也有用户认为 M3 Ultra 的性能提升不明显，可能与内存带宽、优化等因素有关。

例如，有人表示：“作为一名长期使用 Mac 的用户，我对这次 M3 Ultra 的性能提升感到失望。原本期待能有更显著的改进，但实际情况却不尽如人意。”

还有用户提到：“我觉得不能单纯从这些数据就下结论，也许还有其他因素影响着性能表现。”

不过，也有人认为这种性能差异在合理范围内，毕竟各个组件之间存在细微差别。

总体而言，关于 M2 Ultra 和 M3 Ultra 在运行 KoboldCpp 时的性能对比，讨论仍在继续，大家都在试图找出影响性能的关键因素和可能的优化方案。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#