随着Qwen OwO以及现在更大的QvQ模型的出现,与使用专用GPU相比,在M系列Mac上获取答案似乎要花费更长的时间。你们有什么想法?
讨论总结
原帖提出随着新模型出现,M系列Mac在运行大型语言模型(LLMs)时相比专用GPU获取答案可能更慢,质疑其是否仍可行。评论者们从不同角度进行讨论,包括硬件性能对比(如RTX - 3090与M3Max的速度对比、不同设备的内存和显存带宽等)、功率消耗(GPU和Mac空闲时的功率情况)、不同设备运行模型的体验(如M1 Max运行Qwq的效果、llama.cpp和MLX的比较),还有关于如何改善M系列Mac运行速度(软件优化、寄希望于QRWKV等),以及Mac和PC各自的优劣势等内容,讨论氛围比较理性、务实。
主要观点
- 👍 在特定模型下,RTX - 3090在处理和生成令牌速度上比M3Max快。
- 支持理由:chibop1给出数据,在使用llama - 3.3 - 70b时,2个RTX - 3090在处理和生成令牌速度上比64GB的M3Max有倍数优势。
- 反对声音:无。
- 🔥 Mac在空闲功率消耗方面比含两个GPU的机器更高效。
- 正方观点:roshanpr认为有两个GPU的机器空闲时消耗功率不止5 - 15W,Mac在空闲时功率消耗更高效。
- 反方观点:kmouratidis给出每个GPU空闲时功率为5 - 15W的数据。
- 💡 在M1 Max 64GB上运行Qwq效果良好。
- 解释:AfternoonOk5482称对于8k tokens的推理链能达到约20tk/s,每个问题耗时约12分钟。
- 💡 构建运行72B模型的PC成本约3 - 5千美元且速度可能更快。
- 解释:作者以3090/4090等为例阐述GPU在硬件性能方面的优势,对比Mac,认为在prompt处理和生成速度上PC可能更快。
- 💡 llama.cpp总体上比MLX更智能。
- 解释:AfternoonOk5482通过使用体验得出此结论,虽然MLX读取长文本速度更快,但缺乏–mlock对多轮长文本查询几乎无用。
金句与有趣评论
- “😂 chibop1:In average, 2xRTX - 3090 processes tokens 7.09x faster and generates tokens 1.81x faster than M3Max 64GB when using llama - 3.3 - 70b.”
- 亮点:通过具体数据对比了RTX - 3090和M3Max在特定模型下处理和生成令牌的速度。
- “🤔 roshanpr:impossible for the machine to pull 5 ~ 15 watts at idle with two gpu’s. the cpu, board and ram also play a factor. in reality you pulling 80 ~ 85 watts from wall. Macs are more efficient in idle power consumption.”
- 亮点:反驳关于GPU空闲功率的观点,并提出Mac在空闲功率消耗方面更高效。
- “👀 AfternoonOk5482:Using a M1 Max 64GB here. Qwq works fine, specially with 1.5B qwen coder as draft model. I am getting about 20tk/s for huge 8k tokens reasoning chains. Takes like 12 min per problem.”
- 亮点:分享了M1 Max 64GB运行Qwq的实际体验数据。
- “😎 576 GB/s LPDDR - 5x on the top end mac M4 is about the same VRAM BW as a 3070Ti. 273 GB/s is about as fast as 3060 VRAM BW.”
- 亮点:对比了Mac和GPU的硬件性能指标。
- “🤓 I’d go with a PC for "openness" and "customize ability" and "scalability" and "value" though ideally my favorite solution is neither apple nor consumer PCs because they both are kind of user hostile in their own ways.”
- 亮点:阐述了选择PC的理由以及指出苹果和消费级PC对用户不友好之处。
情感分析
总体情感倾向较为理性客观。主要分歧点在于GPU和Mac的性能对比(如处理速度、功率消耗等方面)以及不同设备运行模型的体验上。可能的原因是不同设备在硬件性能、软件适配等方面存在差异,评论者基于自己的使用经验、测试数据等形成不同观点。
趋势与预测
- 新兴话题:QRWKV能否解决M系列Mac运行LLMs的问题可能会引发后续讨论。
- 潜在影响:如果更多软件优化实现,可能会改变M系列Mac在运行LLMs时的性能劣势,影响用户对设备的选择倾向,也可能促使苹果或其他相关方进一步改进硬件或软件。
详细内容:
《关于 M 系列 Mac 在运行 LLMs 时的性能与效率讨论》
在 Reddit 上,一个题为“你们认为 Test-Time Compute 模型的引入会使 M 系列 Mac 不再是运行此类 LLMs 的可行方法吗?”的帖子引发了热烈讨论。该帖子指出,像 Qwen OwO 和更大的 QvQ 模型出现后,在 M 系列 Mac 上获取答案的时间似乎比使用专用 GPU 要长得多。此帖获得了众多关注,评论众多。
讨论的焦点主要集中在性能和效率的对比上。有人分享说,平均来看,2xRTX - 3090 在处理令牌和生成令牌的速度上比 M3Max 64GB 快很多,并提供了相关链接:https://www.reddit.com/r/LocalLLaMA/comments/1he2v2n/speed_test_llama3370b_on_2xrtx3090_vs_m3max_64gb/ 。有人提到 GPU 在空闲时的功耗,如“5 - 15W 每 GPU 在空闲时,可能大多数品牌为 10 - 12W。”但也有人反驳称,考虑整个系统在空闲时的负载,实际从墙上消耗的功率约为 80 - 85 瓦。还有用户表示自己有一个装有两个 4070s 的系统,空闲时用瓦特计测量约为 50 瓦。
有用户使用 M1 Max 64GB 分享个人经历,称 Qwq 运行良好,特别是使用 1.5B qwen coder 作为草案模型时,对于巨大的 8k 令牌推理链,大约能达到 20tk/s,每个问题约需 12 分钟。有人询问关于草案模型的更多细节,也有人对比不同模型的体验。
有人认为 Mac 整体在空闲时的功耗要低得多,也有人觉得 M 系列 Mac 在速度上较慢,但在效率方面有优势。有人期待软件优化能加快上下文消化和令牌输出速度,还有人希望QRWKV能带来改变。
讨论中的共识在于大家都关注性能、效率和功耗等方面的表现,而争议点在于 M 系列 Mac 与专用 GPU 在不同场景下的实际表现和适用性。
总之,关于 M 系列 Mac 在运行 LLMs 时的性能与效率,Reddit 上的讨论丰富多样,为我们提供了多维度的思考。
感谢您的耐心阅读!来选个表情,或者留个评论吧!