原贴链接

这是我使用Ollama对基础款Mac Mini M4进行测试的一些结果，我对这些结果相当满意。与我的3090相比，Llama 3.2视觉模型评估图像的速度极慢，但用于文本模型还不错。16GB的内存甚至足以同时加载Qwen2.5和Llama3.2。下面是各个模型的详细测试数据：Llama3.2:3b - instruct Q8_0，总时长6.064835583秒，加载时长26.919208毫秒，提示评估计数108个token，提示评估时长209毫秒，提示评估速率516.75个token/秒，评估计数143个token，评估时长5.6秒，评估速率25.54个token/秒；Qwen2.5 7B Q4_K_M，总时长7.489789542秒，加载时长19.308792毫秒，提示评估计数55个token，提示评估时长510毫秒，提示评估速率107.84个token/秒，评估计数183个token，评估时长6.959秒，评估速率26.30个token/秒；Qwen2.5 14B Q4_K_M，总时长7.848169666秒，加载时长18.011333毫秒，提示评估计数56个token，提示评估时长310毫秒，提示评估速率180.65个token/秒，评估计数79个token，评估时长7.513秒，评估速率10.52个token/秒；Llama 3.1 8B Q5，总时长13.141231333秒，加载时长24.590708毫秒，提示评估计数36个token，提示评估时长499毫秒，提示评估速率72.14个token/秒，评估计数229个token，评估时长12.615秒，评估速率18.15个token/秒；Llama 3.2V 11B Q4_K_M（图像评估），总时长1分22.740950166秒，加载时长28.457875毫秒，提示评估计数12个token，提示评估时长1分6.307秒，提示评估速率0.18个token/秒，评估计数179个token，评估时长16.25秒，评估速率11.02个token/秒，（文本）总时长12.942770708秒，加载时长27.856毫秒，提示评估计数36个token，提示评估时长947毫秒，提示评估速率38.01个token/秒，评估计数221个token，评估时长11.966秒，评估速率18.47个token/秒

讨论总结

原帖作者分享了Mac Mini M4的测试结果，涉及多种模型的运行情况。评论者们的讨论主要集中在几个方面，一是关于mlx模型相关的问题，如运行速度、是否存在对应模型以及运行时的bug等；二是对Mac Mini M4在不同语境下运行模型的测试结果表示好奇、认可或提出见解，还探讨了设备的性价比和使用场景；三是围绕设备的硬件配置如内存大小对运行结果的影响进行技术分析；还有对原帖作者的感谢以及一些设备使用体验分享等。整体氛围较为积极，大家在交流中分享信息和观点。

主要观点

👍 对Mac Mini M4在低语境下7 - 8b模型范围的测试结果表示认可
- 支持理由：对于600美元基础款价格来说表现不错，可作为开发者辅助设备等用途。
- 反对声音：无
🔥 Llama - 3.2 - 11b - vision可能无法完全装入16GB的Mac，Ollama会自动将一些层卸载到CPU导致速度慢
- 正方观点：16GB内存下运行相关模型速度慢，通过技术分析得出上述结论。
- 反方观点：无
💡 在Mac上运行llama - 3.2 - 11b - vision最好选择是Ollama
- 解释：在评论交流中，对比其他方式，得出此结论。

金句与有趣评论

“😂 Have you tried mlx models? They run much faster on my m1 max”
- 亮点：引出关于mlx模型的讨论，并且表明在m1 max上运行速度快。
“🤔 Id be really curious to see how it holds up at higher contexts, but at low context this is really not bad for the 7 - 8b model range.”
- 亮点：表达对Mac Mini M4在不同语境下运行模型的好奇与评价。
“👀 Ollama is the best bet to run llama - 3.2 - 11b - vision on Mac now.”
- 亮点：明确指出在Mac上运行特定模型的较好选择。

情感分析

总体情感倾向是积极正面的。主要分歧点较少，有部分关于模型运行速度慢是由于设备本身问题还是运行机制问题存在一定探讨，但整体讨论比较和谐。可能的原因是大家都是在分享自己的使用经验和对设备、模型的看法，没有涉及到比较激烈的争议性话题。

趋势与预测

新兴话题：对不同硬件设备在运行各种模型时进行更准确的基准测试对比可能会成为新兴话题，如评论中建议原帖作者进行特定编译和运行操作来获取硬件对比基准。
潜在影响：如果更多关于Mac Mini M4等设备运行模型的测试和优化得以进行，可能会影响到开发者对设备的选择以及相关模型在这类设备上的优化方向，也可能会影响普通用户对这类设备性价比的看法。

详细内容：

《Mac Mini M4 16GB 测试结果引发的热议》

近日，Reddit 上一则关于 Mac Mini M4 16GB 测试结果的帖子引起了广泛关注。该帖子详细展示了使用 Ollama 对不同模型进行测试的各项数据，作者表示对结果总体较为满意。此帖获得了众多的点赞和大量的评论。

讨论主要集中在模型的运行速度、内存使用、适用场景等方面。有人提到是否尝试过 mlx 模型，认为其运行速度更快；还有人指出目前运行 llama-3.2-11b-vision 时，Ollama 是较好的选择。

有用户好奇在更高的上下文环境中其表现如何，有人认为对于 7 - 8b 模型范围，在低上下文环境下表现不错，比如 600 美元的价格对于运行 8b 模型来说是个不错的选择，可作为开发者专用的 copilot 盒子。也有人分享个人经历，如订购了具有 32GB Vram 的 Mac Mini M4 并期待其表现。

有人提出上下文对处理时间影响很大，应尝试 1000+ 个令牌的提示来获取相关数据。还有用户指出 Llama-3.2-11b-vision 无法在 16GB 的 Mac 上完美运行，可能会自动将某些层卸载到 CPU 上。

核心问题在于不同模型在 Mac Mini M4 16GB 上的性能表现差异以及如何优化以获得更好的效果。讨论中的共识是对于特定需求，选择合适的模型和配置至关重要。一些独特的观点如将其作为特定用途的设备，为讨论增添了新的视角。

未来，我们期待看到更多关于 Mac Mini M4 与不同模型结合的测试结果和优化方案，以满足用户多样化的需求。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#