原贴链接

我目前拥有一台MacBook M1 Pro（32GB内存，16核GPU）和一台顶配的MacBook M4 Max（128GB内存，40核GPU），并进行了一些推理速度测试。我将上下文大小保持为默认的4096。出于好奇，我对比了MLX优化的模型和GGUF模型。以下是我的初步结果！

Ollama

GGUF模型	M4 Max（128GB内存，40核GPU）	M1 Pro（32GB内存，16核GPU）
Qwen2.5:7B（4位）	72.50个令牌/秒	26.85个令牌/秒
Qwen2.5:14B（4位）	38.23个令牌/秒	14.66个令牌/秒
Qwen2.5:32B（4位）	19.35个令牌/秒	6.95个令牌/秒
Qwen2.5:72B（4位）	8.76个令牌/秒	未测试

LM Studio

MLX模型	M4 Max（128GB内存，40核GPU）	M1 Pro（32GB内存，16核GPU）
Qwen2.5 - 7B - Instruct（4位）	101.87个令牌/秒	38.99个令牌/秒
Qwen2.5 - 14B - Instruct（4位）	52.22个令牌/秒	18.88个令牌/秒
Qwen2.5 - 32B - Instruct（4位）	24.46个令牌/秒	9.10个令牌/秒
Qwen2.5 - 32B - Instruct（8位）	13.75个令牌/秒	无法完成（崩溃）
Qwen2.5 - 72B - Instruct（4位）	10.86个令牌/秒	未测试

GGUF模型	M4 Max（128GB内存，40核GPU）	M1 Pro（32GB内存，16核GPU）
Qwen2.5 - 7B - Instruct（4位）	71.73个令牌/秒	26.12个令牌/秒
Qwen2.5 - 14B - Instruct（4位）	39.04个令牌/秒	14.67个令牌/秒
Qwen2.5 - 32B - Instruct（4位）	19.56个令牌/秒	4.53个令牌/秒
Qwen2.5 - 72B - Instruct（4位）	8.31个令牌/秒	未测试

一些想法：

我认为这些模型实际上没有利用CPU，但我对此并不确定。
我选择Qwen2.5仅仅是因为它目前是我最喜欢使用的本地模型。它似乎比蒸馏后的DeepSeek模型表现更好（我的观点）。但如果有人有任何建议，我愿意测试其他模型。
尽管两者之间存在很大的性能差异，但我仍然不确定这是否值得更大的价格差异。我仍在考虑是保留M4 Max并卖掉M1 Pro还是退货。

让我知道你的想法！

编辑：添加了72B和7B变体的测试结果更新：我添加了一个GitHub仓库，如果有人想要贡献自己的速度测试，可以在这里自由贡献：[https://github.com/itsmostafa/inference - speed - tests]

讨论总结

原帖作者对M1 Pro和M4 Max进行了推理速度测试，分享了不同模型在不同软件下的测试结果，并阐述了自己对模型是否利用CPU、所选模型的原因以及设备性价比的看法。评论者们有的补充了更多数据来源，有的对测试内容提出疑问，如模型比较是否合理、测试是否足够严格等，也有对原帖表示认可和感谢的，还有人给出了进一步的测试建议和分享自己设备的性能情况。总体氛围较为理性和平和，大家都围绕设备性能测试展开讨论。

主要观点

👍 原帖信息有价值
- 支持理由：如拥有M1 Max的评论者称原帖中M1 Pro和M4 Max的速度约是自己得到速度的两倍，觉得信息很棒。
- 反对声音：无
🔥 原帖比较的模型类型可能存在差异影响测试结果
- 正方观点：评论者kovnev指出原帖似乎比较了不同类型的模型（instruct和常规的Qwen模型），且instruct模型更快。
- 反方观点：无
💡 希望原帖作者进行更严格的推理速度测试
- 解释：martinerous建议原帖作者将上下文填充到4k进行测试，检查每秒标记数和第一个标记的回复时间。
💡 不确定GGUF和MLX在相同量化下速度提升是否会带来输出质量的下降
- 解释：tengo_harambe询问GGUF和MLX在相同量化下输出是否相同，有人表示MLX速度比GGUF快近1.5倍，但不清楚输出质量情况。
💡 对LMStudio性能提升情况表示怀疑
- 解释：有评论者惊讶于原帖中LMStudio所展现出的性能提升，质疑其正确性。

金句与有趣评论

“😂 我使用Qwen2.5 7B在3090（Linux）上用于FIM和llama.cpp，但在我的M1 Pro，32GB上开发。在我的3090上，它通常超过110tok/sec，提示处理速度不明显。”
- 亮点：通过不同设备使用同一模型的性能对比，直观体现出设备性能差异。
“🤔 Am I missing something? It looks like you’ve compared different models (instruct vs regular Qwen).”
- 亮点：敏锐地指出原帖可能存在的模型比较问题。
“👀 如果有疑虑，绝对要退货。”
- 亮点：从个人角度给出面对新电脑疑虑时的干脆建议。
“😂 Could you please do a tougher test by filling the context to 4k (feed it some random fanfiction story and ask to continue) and then checking both the t/s and also the time to the first token in reply?”
- 亮点：详细地提出一种更严格的测试建议。
“🤔 我很惊讶LMStudio似乎有这样的性能提升。这是正确的吗？”
- 亮点：直接表达对LMStudio性能提升的疑惑。

情感分析

总体情感倾向为中性，主要分歧点在于对原帖测试内容的一些质疑，如模型比较的合理性、LMStudio的性能提升是否真实等。可能的原因是原帖的测试涉及多种设备、模型和软件，情况较为复杂，容易引发不同看法。

趋势与预测

新兴话题：可能会有更多针对不同设备在特定模型和软件下性能优化的讨论，如如何提高M1 Pro或M4 Max在某些模型下的性能。
潜在影响：有助于MacBook用户在选择设备和使用模型时做出更明智的决策，也可能影响相关模型和软件开发者对Mac设备的优化方向。

详细内容：

《MacBook M1 Pro 与 M4 Max 推理速度对比引发的热门讨论》

近日，Reddit 上一篇关于 MacBook M1 Pro 和 maxed-out M4 Max 推理速度对比的帖子引起了广泛关注。该帖子获得了众多点赞和大量评论。

原帖作者拥有一台 MacBook M1 Pro（32GB RAM，16 核 GPU）和一台顶配的 MacBook M4 Max（128GB RAM，40 核 GPU），并进行了一些推理速度测试，还分享了测试结果。作者表示，自己不确定这些模型是否真正利用了 CPU，选择 Qwen2.5 是因为它是目前最喜欢的本地模型，但对 M4 Max 与 M1 Pro 巨大的性能差异和价格差异仍在思考是否值得，是保留 M4 Max 卖掉 M1 Pro 还是退货。

讨论焦点主要集中在以下几个方面：

有人分享了更多数据点的链接[https://github.com/ggml-org/llama.cpp/discussions/4167]。有人请求作者也测试 qwen2.5 7B 型号。还有人介绍了自己的配置情况，并分享了相关的代码配置。

有人指出 M4 Max 的内存带宽比 M1 Max 多近 50%，且计算能力更强，而 M1 Max 动力不足。

有人提到自己的 M1 Max 32 核 GPU 64GB 设备的测试速度，认为原作者的速度大约是自己的两倍。

有人分享了自己使用不同设备和模型的经历，比如从 16GB M1 Pro 升级，认为 128GB 内存对于主电脑很重要。还有人讲述了使用不同模型进行技术白皮书总结、图像生成等的体验。

有人对测试提出了更多建议，比如填充上下文到 4K 进行更严格的测试，确认 GGUF 和 MLX 在相同量化下的生成质量是否相同等。

关于模型性能和使用体验的观点存在差异。有人认为 instruct 模型更快，有人对不同模型的表现感到好奇，有人对 LM Studio 的性能提升表示惊讶。

总之，这次关于 MacBook M1 Pro 与 M4 Max 推理速度的讨论，为大家提供了丰富的信息和思考角度。但对于如何准确评估模型性能、不同配置的实际效果以及性价比等问题，仍有待进一步探讨。

Ollama#

LM Studio#

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#