我刚入手了一台顶配的M4 Pro Mac Mini,配备64GB内存和升级后的处理器(14核CPU,20核GPU),价格约为2400美元。我想看看这个5英寸见方的小设备在运行最新模型时的推理能力如何。于是我进行了如下尝试:在LM Studio上使用转换为MLX格式的Llama 3.2 3B Instruct、Q4模型;在Ollama上使用Llama 3.2 3B、Q4_K_M模型;在LM Studio上使用Llama 3.3 - 70B - Instruct - GGUF、Q3_K_L模型;在Ollama上使用Llama 3.3 70B、Q4_K_M模型(我无法在LM Studio中加载此模型)。在LM Studio上运行Llama 3.2 3B模型时,每秒能处理102 - 105个标记(Tok/sec),在Ollama上约为70 - 80 Tok/sec。我没想到速度会这么快,屏幕上文字滚动的速度让我很惊讶。我原以为Ollama会比LM Studio快,但事实并非如此。所以我猜测LM Studio的速度提升是因为MLX(而非Ollama的GGUF)以及苹果在苹果智能软件优化方面所做的工作,但这只是我的推测,如果有人有更好的理由,请在评论中指出。在LM Studio上运行Llama 3.3 70B、Q3_K_L模型时,速度为每秒3 - 3.5个标记。在Ollama上运行Llama 3.3 70B、Q4_K_M模型时,速度约为5 Tok/sec。我读到过Llama 3.3 70B模型是一个类GPT - 4模型,能在这么小的Mac Mini上运行这个模型,哪怕速度很慢,也让我很吃惊。由于系统资源不足的错误,我无法将Q4_K_M模型加载到LM Studio中。但根据运行期间的内存监测,我的机器应该有足够空间容纳这个模型,所以我会尝试调整设置看能否加载。方法:我在上述所有不同设置下使用了两个提示(“天空为什么是蓝色的?”和“写一份苹果公司财务报告”)。对于LM Studio,我能直接从工具中获取性能数据,而对于Ollama,我使用了这个Python脚本(做了一些小修改):https://github.com/MinhNgyuen/llm - benchmark。到目前为止我只关注原始速度,而非回答质量。不过我看到的所有回答看起来都相当合理,没有发现任何奇怪的地方。我很惊讶3B模型的回答与70B模型的回答如此接近,并且我注意到在所有情况下,财务结果的回答都聚焦于2022年,这反映了知识截止日期。在整个测试过程中,只有在运行70B、Q4_K_M模型时我听到风扇启动了。免责声明:我是一个长期的PC用户,很多年没有用过Mac了。而且,虽然我一直在我的其他Windows笔记本电脑上玩本地大型语言模型(LLM),但这是我第一次尝试对它们进行基准测试。所以可能有什么地方弄错了,如果之后发现自己做了蠢事,我会更新这个帖子。如果其他人有好的想法让我在这个设置上测试,欢迎在下面的评论中留言。
讨论总结
原帖作者分享了在Mac Mini M4 Pro上测试不同Llama模型的速度情况,花费约2400美元购买的设备。评论者们从多个角度展开讨论,包括测试脚本推荐、GPU内存设置、不同设备上运行模型的性能比较、对Mac设备运行模型性能的质疑、设备性价比等,整体氛围比较理性,大家根据自己的经验和需求发表看法。
主要观点
- 👍 建议使用特定脚本测试70b模型和llama.cpp
- 支持理由:可以检测不同提示大小下的速度变化
- 反对声音:无
- 🔥 质疑在Mac设备上运行Llama模型时首次生成token的时间过长
- 正方观点:除简单提示外可能糟糕到不可用,应给出真实性能表现
- 反方观点:无
- 💡 Llama 3.3 70B, Q4_K_M达到5 Tok/sec速度较合理
- 解释:与使用3090s运行相比,虽速度慢但3090s成本高且维护麻烦
- 💡 对于特定人群Mac Mini价值很高
- 解释:对于已是Mac用户、想升级且喜欢摆弄LLMs的人来说性价比不错
- 💡 存在不同技术在不同提示符长度下速度有差异的情况
- 解释:llama.cpp在长提示符时速度更快,MLX在短提示符时速度更快
金句与有趣评论
- “😂 chibop1: Could you test your 70b model with this and llama.cpp?”
- 亮点:直接给原帖作者提出一个新的测试建议。
- “🤔 Whats the time to first token though? Because I know its bad and really really bad with anything but the most trivial prompts. I would personally say not usable.”
- 亮点:对Mac设备运行模型提出性能方面的关键疑问。
- “👀 The Mac Mini is a pretty phenomenal value if you are already a Mac user, are looking to upgrade, and you like tinkering with LLMs in your spare time.”
- 亮点:指出Mac Mini对于特定人群的价值所在。
- “😂 I have an m4 pro 48gb macbook and just an 82 token prompt takes 1m 27s to first token for 70b - Its not really usable imo I’d just hate for people to get the impression it was and go out and buy one with loads of ram for 70b and get a nasty surprise.”
- 亮点:通过自身实例来强调在Mac设备上运行70B模型的性能问题。
- “🤔 Also, llama.cpp is faster at longer prompt, but MLX is faster at shorter prompt.”
- 亮点:补充不同技术在不同提示符长度下速度差异的知识。
情感分析
总体情感倾向比较中性。主要分歧点在于对Mac设备运行Llama模型的性能评价上,部分人认为速度可以接受,如认为Llama 3.3 70B, Q4_K_M达到5 Tok/sec较合理;部分人则认为性能差,如质疑首次生成token的时间过长。可能的原因是大家使用的设备具体配置不同、测试环境不同以及对模型性能的期望不同。
趋势与预测
- 新兴话题:新设备(如M4 Max MBP)上运行模型的性能情况可能成为后续讨论话题。
- 潜在影响:如果更多设备能较好地运行大型模型,可能会影响相关设备的市场需求以及用户对本地模型运行的热情。
详细内容:
标题:在 Mac Mini M4 Pro 上运行 Llama 3.2 和 3.3 模型的探索与讨论
最近,Reddit 上有一篇关于在 Mac Mini M4 Pro 上运行 Llama 3.2 3B 和 Llama 3.3 70B 模型的热门帖子引发了大量关注。该帖子获得了众多点赞和丰富的评论。
原帖作者分享了自己在 Mac Mini M4 Pro 上进行模型推理的尝试,包括不同模型在不同平台上的运行速度,还提到了一些遇到的问题和推测。例如,Llama 3.2 3B 模型在 LM Studio 上能达到 102-105 Tok/sec,在 Ollama 上约 70-80 Tok/sec。Llama 3.3 70B 在 LM Studio 上为 3 - 3.5 Tok/sec,在 Ollama 上约 5 Tok/sec。作者还提到了无法在 LM Studio 中加载 Q4_K_M 模型的系统资源不足问题。
讨论的焦点主要集中在模型的运行速度和性能表现上。有人认为 5 Tok/sec 的速度对于 Llama 3.3 70B 来说还算合理,但也有人坚决反对,比如有用户表示:“作为一名拥有 M4 Pro 48gb 工作用 MacBook 的用户,Q4 70B 模型的速度太慢,几乎无法使用。一旦上下文超过几个句子,也就是几个令牌的长度,处理就开始需要数分钟。”还有用户分享道:“我有一台个人的 64gb M1 Max,在上面运行的最大模型是 32b q4,即便如此,它也很快就会陷入困境。”
不过,也有观点认为在特定条件下,性能是可以接受的。比如有人提到:“Llama 3.3 70B,Q4_K_M 以 5 Tok/sec 的速度——听起来相当合理。我很好奇当上下文填充到至少 20k 时,这是否还能保持。”
同时,大家还就如何优化性能、提高运行速度展开了讨论。有用户建议使用特定的脚本和命令来调整设置,还有用户分享了在不同设备上的测试结果和经验。
总之,关于在 Mac Mini M4 Pro 上运行这些模型的讨论热烈而多样,大家都在积极探索如何更好地发挥设备的性能。
感谢您的耐心阅读!来选个表情,或者留个评论吧!