原贴链接

由于Mac Studio是1.5万美元以下唯一拥有0.5TB内存且内存带宽不错的机器，我想知道密集型大语言模型（如Llama 3.1 70B和3.1 405B）的每秒处理字数（PP）和标记生成速度。是否有人买了新Mac并进行了尝试？或者，如果你使用过M2 Ultra/M3 Max/M4 Max有什么推测？

讨论总结

原帖探讨在M3 Ultra上测试大于70B的大型语言模型（LLMs）的情况，包括PP和令牌生成速度等。评论者SomeOddCodeGuy分享了自己的测试结果，引发了众多讨论。有对结果的质疑，有关于不同设备（如Nvidia与Mac）性能比较的探讨，还有针对特定模型的改进建议、感谢分享等内容，也涉及到在达到理想模型使用速度前是否需要技术突破、是否要在M3 Ultra上测试新模型（如Deepseek）等话题。

主要观点

👍 M3 Ultra运行Llama 3.1 405b时，不使用Flash Attention且运行效果不佳。
- 支持理由：评论者SomeOddCodeGuy通过测试得出结果。
- 反对声音：无。
🔥 M3 Ultra运行不同版本、不同参数Llama模型的多种性能数据。
- 正方观点：SomeOddCodeGuy分享测试数据。
- 反方观点：无。
💡 在100B +的密集模型以高语境、可接受速度使用前需要突破。
- 解释：评论者根据目前情况得出此结论。
💡 关注在M3 Ultra上测试Deepseek这类MOE模型的可能性。
- 解释：有评论者提出此想法。
💡 在Mac机器上进行LLM推理通常受内存限制。
- 解释：评论者根据经验及对Mac机器的了解得出。

金句与有趣评论

“😂 SomeOddCodeGuy：The 405b was so miserable to run that I didn’t bother trying Flash Attention on it, and Command - A with Flash attention broke completely; just spit out gibberish.”
- 亮点：生动描述了405b模型运行的糟糕情况。
“🤔 segmond：I hope your stuff is wrong. :-/ I’m getting 10.5ish tk/sec generation with command a q8 with no spec decoding, flash attention enabled on 6x3090s.”
- 亮点：对测试结果表示怀疑并给出自己的测试数据。
“👀 GermanK20：we’ve always known Nvidia will always 10x "CPU rivals", also 10x the noise and power consumption, it can’t be new to you.”
- 亮点：对比Nvidia和CPU（Mac）的性能差异。
“💡 Emergency - Map9861：You might get slightly better results for Llama 3.1 405b using the larger 8b llama model for speculative decoding due to the higher acceptance rate.”
- 亮点：对特定模型提出改进建议。
“😊 bick_nyers：Thank you for being one of the few to showcase actual LLM workloads on Mac”
- 亮点：表达对分享者的感谢。

情感分析

总体情感倾向是积极的，大家都在积极探讨关于LLMs在M3 Ultra上的测试相关话题。主要分歧点在于SomeOddCodeGuy分享的测试结果，部分人表示怀疑。可能的原因是不同设备、不同环境下的测试结果会有差异。

趋势与预测

新兴话题：在M3 Ultra上测试Deepseek这类MOE模型。
潜在影响：对大型语言模型在不同设备上的优化和使用有一定的参考价值，可能影响相关人员对设备的选择和模型的应用。

详细内容：

《关于 M3 Ultra 运行大型语言模型的热门讨论》

在 Reddit 上，一个题为“Has anyone tried >70B LLMs on M3 Ultra?”的帖子引起了广泛关注，点赞数众多，评论也十分热烈。帖子主要探讨了在 Mac Studio 这一拥有 0.5TB 内存且价格低于 15000 美元的机器上，运行诸如 Llama 3.1 70B 和 3.1 405B 等密集语言模型的性能表现，以及是否有人尝试了新的 Mac 设备来进行相关测试。

讨论焦点主要集中在以下几个方面：有人表示自己在 6x3090s 上进行测试，能达到每秒 10.5 个左右的 token 生成速度。但也有人认为 Nvidia 在性能上一直远超“CPU 对手”，且噪声和功耗也更高，Mac 一般在通用计算上无法赶上专用硬件。还有人认为使用更大的 8b llama 模型进行推测解码，对于 Llama 3.1 405b 可能会有稍好的结果。

有用户分享了自己的测试经历，比如使用 M3 Ultra 运行 Llama 3.1 405b 的详细数据。还有用户提出一些有趣或引发思考的观点，比如有人认为一些人甚至不知道每秒生成 token 是什么意思，也有人觉得在达到 100B 以上的密集模型能以可接受的速度运行之前，还需要一些突破。

在讨论中，共识在于认识到不同硬件在处理大型语言模型时的性能差异，以及 Mac 设备在某些特定场景下的表现和局限性。特别有见地的观点如，有人指出在实际应用中，由于各种开销和未完全优化，Mac 机器的提示处理速度可能比专用 GPU 慢。

总体而言，这场关于 M3 Ultra 运行大型语言模型的讨论，让我们更深入地了解了不同硬件在处理此类任务时的表现和面临的挑战。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#