原贴链接

我目前拥有一台MacBook M1 Pro(32GB内存,16核GPU)和一台顶配的MacBook M4 Max(128GB内存,40核GPU),并进行了一些推理速度测试。我将上下文大小保持为默认的4096。出于好奇,我对比了MLX优化的模型和GGUF模型。以下是我的初步结果!

Ollama

GGUF模型M4 Max(128GB内存,40核GPU)M1 Pro(32GB内存,16核GPU)
Qwen2.5:7B(4位)72.50个令牌/秒26.85个令牌/秒
Qwen2.5:14B(4位)38.23个令牌/秒14.66个令牌/秒
Qwen2.5:32B(4位)19.35个令牌/秒6.95个令牌/秒
Qwen2.5:72B(4位)8.76个令牌/秒未测试

LM Studio

MLX模型M4 Max(128GB内存,40核GPU)M1 Pro(32GB内存,16核GPU)
Qwen2.5 - 7B - Instruct(4位)101.87个令牌/秒38.99个令牌/秒
Qwen2.5 - 14B - Instruct(4位)52.22个令牌/秒18.88个令牌/秒
Qwen2.5 - 32B - Instruct(4位)24.46个令牌/秒9.10个令牌/秒
Qwen2.5 - 32B - Instruct(8位)13.75个令牌/秒无法完成(崩溃)
Qwen2.5 - 72B - Instruct(4位)10.86个令牌/秒未测试
GGUF模型M4 Max(128GB内存,40核GPU)M1 Pro(32GB内存,16核GPU)
Qwen2.5 - 7B - Instruct(4位)71.73个令牌/秒26.12个令牌/秒
Qwen2.5 - 14B - Instruct(4位)39.04个令牌/秒14.67个令牌/秒
Qwen2.5 - 32B - Instruct(4位)19.56个令牌/秒4.53个令牌/秒
Qwen2.5 - 72B - Instruct(4位)8.31个令牌/秒未测试

一些想法:

  • 我认为这些模型实际上没有利用CPU,但我对此并不确定。
  • 我选择Qwen2.5仅仅是因为它目前是我最喜欢使用的本地模型。它似乎比蒸馏后的DeepSeek模型表现更好(我的观点)。但如果有人有任何建议,我愿意测试其他模型。
  • 尽管两者之间存在很大的性能差异,但我仍然不确定这是否值得更大的价格差异。我仍在考虑是保留M4 Max并卖掉M1 Pro还是退货。

让我知道你的想法!

编辑:添加了72B和7B变体的测试结果 更新:我添加了一个GitHub仓库,如果有人想要贡献自己的速度测试,可以在这里自由贡献:[https://github.com/itsmostafa/inference - speed - tests]

讨论总结

原帖作者对M1 Pro和M4 Max进行了推理速度测试,分享了不同模型在不同软件下的测试结果,并阐述了自己对模型是否利用CPU、所选模型的原因以及设备性价比的看法。评论者们有的补充了更多数据来源,有的对测试内容提出疑问,如模型比较是否合理、测试是否足够严格等,也有对原帖表示认可和感谢的,还有人给出了进一步的测试建议和分享自己设备的性能情况。总体氛围较为理性和平和,大家都围绕设备性能测试展开讨论。

主要观点

  1. 👍 原帖信息有价值
    • 支持理由:如拥有M1 Max的评论者称原帖中M1 Pro和M4 Max的速度约是自己得到速度的两倍,觉得信息很棒。
    • 反对声音:无
  2. 🔥 原帖比较的模型类型可能存在差异影响测试结果
    • 正方观点:评论者kovnev指出原帖似乎比较了不同类型的模型(instruct和常规的Qwen模型),且instruct模型更快。
    • 反方观点:无
  3. 💡 希望原帖作者进行更严格的推理速度测试
    • 解释:martinerous建议原帖作者将上下文填充到4k进行测试,检查每秒标记数和第一个标记的回复时间。
  4. 💡 不确定GGUF和MLX在相同量化下速度提升是否会带来输出质量的下降
    • 解释:tengo_harambe询问GGUF和MLX在相同量化下输出是否相同,有人表示MLX速度比GGUF快近1.5倍,但不清楚输出质量情况。
  5. 💡 对LMStudio性能提升情况表示怀疑
    • 解释:有评论者惊讶于原帖中LMStudio所展现出的性能提升,质疑其正确性。

金句与有趣评论

  1. “😂 我使用Qwen2.5 7B在3090(Linux)上用于FIM和llama.cpp,但在我的M1 Pro,32GB上开发。在我的3090上,它通常超过110tok/sec,提示处理速度不明显。”
    • 亮点:通过不同设备使用同一模型的性能对比,直观体现出设备性能差异。
  2. “🤔 Am I missing something? It looks like you’ve compared different models (instruct vs regular Qwen).”
    • 亮点:敏锐地指出原帖可能存在的模型比较问题。
  3. “👀 如果有疑虑,绝对要退货。”
    • 亮点:从个人角度给出面对新电脑疑虑时的干脆建议。
  4. “😂 Could you please do a tougher test by filling the context to 4k (feed it some random fanfiction story and ask to continue) and then checking both the t/s and also the time to the first token in reply?”
    • 亮点:详细地提出一种更严格的测试建议。
  5. “🤔 我很惊讶LMStudio似乎有这样的性能提升。这是正确的吗?”
    • 亮点:直接表达对LMStudio性能提升的疑惑。

情感分析

总体情感倾向为中性,主要分歧点在于对原帖测试内容的一些质疑,如模型比较的合理性、LMStudio的性能提升是否真实等。可能的原因是原帖的测试涉及多种设备、模型和软件,情况较为复杂,容易引发不同看法。

趋势与预测

  • 新兴话题:可能会有更多针对不同设备在特定模型和软件下性能优化的讨论,如如何提高M1 Pro或M4 Max在某些模型下的性能。
  • 潜在影响:有助于MacBook用户在选择设备和使用模型时做出更明智的决策,也可能影响相关模型和软件开发者对Mac设备的优化方向。

详细内容:

《MacBook M1 Pro 与 M4 Max 推理速度对比引发的热门讨论》

近日,Reddit 上一篇关于 MacBook M1 Pro 和 maxed-out M4 Max 推理速度对比的帖子引起了广泛关注。该帖子获得了众多点赞和大量评论。

原帖作者拥有一台 MacBook M1 Pro(32GB RAM,16 核 GPU)和一台顶配的 MacBook M4 Max(128GB RAM,40 核 GPU),并进行了一些推理速度测试,还分享了测试结果。作者表示,自己不确定这些模型是否真正利用了 CPU,选择 Qwen2.5 是因为它是目前最喜欢的本地模型,但对 M4 Max 与 M1 Pro 巨大的性能差异和价格差异仍在思考是否值得,是保留 M4 Max 卖掉 M1 Pro 还是退货。

讨论焦点主要集中在以下几个方面:

有人分享了更多数据点的链接[https://github.com/ggml-org/llama.cpp/discussions/4167]。有人请求作者也测试 qwen2.5 7B 型号。还有人介绍了自己的配置情况,并分享了相关的代码配置。

有人指出 M4 Max 的内存带宽比 M1 Max 多近 50%,且计算能力更强,而 M1 Max 动力不足。

有人提到自己的 M1 Max 32 核 GPU 64GB 设备的测试速度,认为原作者的速度大约是自己的两倍。

有人分享了自己使用不同设备和模型的经历,比如从 16GB M1 Pro 升级,认为 128GB 内存对于主电脑很重要。还有人讲述了使用不同模型进行技术白皮书总结、图像生成等的体验。

有人对测试提出了更多建议,比如填充上下文到 4K 进行更严格的测试,确认 GGUF 和 MLX 在相同量化下的生成质量是否相同等。

关于模型性能和使用体验的观点存在差异。有人认为 instruct 模型更快,有人对不同模型的表现感到好奇,有人对 LM Studio 的性能提升表示惊讶。

总之,这次关于 MacBook M1 Pro 与 M4 Max 推理速度的讨论,为大家提供了丰富的信息和思考角度。但对于如何准确评估模型性能、不同配置的实际效果以及性价比等问题,仍有待进一步探讨。