原贴链接

我看到很多关于Mac与rtx - 3090的评论，所以我在2xRTX - 3090和M3 - Max 64GB上对Llama - 3.3 - 70b - instruct - q4_K_M针对不同提示大小进行了测试。起始20k上下文时，由于2xRTX - 3090无法容纳，我必须对RTX - 3090使用q8_0的KV量化。16k提示时，2xRTX - 3090的处理速度快7.2倍，生成速度快1.79倍。32k提示时，2xRTX - 3090的处理速度快6.75倍，生成速度快1.28倍。两者都使用llama.cpp b4326。每个测试都是一次性生成（不是通过多轮聊天方式累积提示）。我启用了Flash attention并将温度设置为0.0，随机种子设置为1000。总时长是总执行时间，而不是llama.cpp报告的总时间。有时会看到较长提示的总时长比短提示短，因为较长提示生成的令牌较少。根据另一个基准测试，M4 - Max似乎比M3 - Max处理提示的速度快16%。以下分别列出了2xRTX - 3090和M3 - Max 64GB在不同提示令牌数量下的提示处理速度、生成令牌数量、令牌生成速度和总执行时间等数据。最后还分享了之前帖子中的一些想法，如Mac是否适合取决于使用场景和对速度的容忍度；如果要进行严肃的ML研发就不要用Mac；如果要用70b模型，建议内存选64GB以上；Mac在处理长文档或代码库任务时速度慢；Mac速度虽慢但便携、内存大、节能、噪音小，NVidia虽快但存在多GPU时的相关问题等。

讨论总结

原帖作者进行了Llama - 3.3 - 70b - instruct - q4_K_M在2x RTX - 3090与M3 - Max 64GB针对不同提示大小的速度测试。评论者们从不同角度进行了讨论，包括提出其他可尝试的路径（如sgland/vllm/exllamav2）、对特定技术支持（如MLX）的疑问、设备运行时的电力不足等问题、不同设备的性能数据补充以及对测试本身和相关技术的优化建议等，整体讨论偏向技术分析和设备性能探讨。

主要观点

👍 有两块3090显卡时选择sgland/vllm/exllamav2路径性能更好
- 支持理由：评论者直接表明倾向，可能基于自身经验或之前对这些路径性能的了解。
- 反对声音：无。
🔥 在Mac上可通过调整批处理和微批处理大小提升大语境下的提示处理速度
- 正方观点：ggerganov分享在Mac上，如M2 Ultra上使用“-b 4096 -ub 4096 -fa”可能为最优设置提升速度。
- 反方观点：不确定是否适用于M3 Max，需要尝试不同值。
💡 英伟达GPU在多个方面（稳定扩散、LLM训练等）有优势，多GPU时所谓劣势被夸大
- 支持理由：评论者列举了多个功能方面，如稳定扩散、LLM训练等多种功能优势，认为购买预装设备可避免劣势。
- 反对声音：原帖提到多GPU时的劣势（如风扇噪音、处理驱动、调优等）是客观存在的。
👍 在运行高功率设备（如多GPU）时会遇到电力不足的问题，并提出从邻居家接电的解决办法
- 支持理由：评论者分享自己在运行3个1600W的PSU时遇到电力不足的情况，所在地区电费便宜所以提出从邻居家接电的方案。
- 反对声音：未涉及道德、安全等方面的反对声音。
💡 用PyTorch做严肃机器学习研究/开发时，不适合用Mac，但可以用MLX，不过MLX相关的Python库和ML模型相比PyTorch有差距
- 支持理由：Mac的MPS存在某些操作不支持情况，但MLX可用于机器学习研究/开发。
- 反对声音：支持MLX的Python库和ML模型与PyTorch相比存在差距，可能错过最先进成果。

金句与有趣评论

“😂 if I have two 3090, I would go for sgland/vllm/exllamav2 route. they are far better at performance”
- 亮点：简洁地表达了在特定硬件条件下的选择倾向。
“🤔 Does llama.cpp support MLX? I use LM Studio on my Mac, which recently added MLX support and it’s much faster.”
- 亮点：引出关于llama.cpp是否支持MLX以及MLX对速度影响的讨论。
“👀 Or you ask the single mother who lives in the apartment beneath you if you can run an electrical cord from her son’s bedroom into your home office to power your 3rd 1600w PSU.”
- 亮点：以一种奇特的解决电力不足问题的方案引起关注。
“😉 With Nvidia GPU you will get stable diffusion, training of stable diffusion, training of llms, NVenc for video, OptiX for blender and much better gaming perfomance. "
- 亮点：详细列举英伟达GPU在多个功能方面的优势。
“🤨 I do not know if the apple people will ever understand that prompt eval is crucial and that it suckz on macs.”
- 亮点：表达对苹果用户是否理解prompt评估重要性的疑问以及对Mac上prompt评估表现的看法。

情感分析

总体情感倾向较为理性客观，主要分歧点在于不同设备的性能比较以及针对特定任务（如机器学习研究/开发）不同设备的适用性。可能的原因是大家基于自己的使用经验、技术理解以及对不同设备特性的认识不同。例如对于Mac和英伟达设备，有的评论者强调英伟达在多方面功能的优势，也有评论者指出Mac在某些场景下（如便携性、能耗等）的优势。

趋势与预测

新兴话题：以能耗来重新考量基准值的环保角度观点可能引发后续讨论，还有对新设备（如M4 Ultra、新的AMD APUs）性能的期待可能促使更多关于新设备性能预测和对比的讨论。
潜在影响：如果更多人关注能耗与性能的关系，可能会影响硬件制造商在研发和宣传时对能耗指标的重视程度；对新设备性能的期待可能影响消费者的购买决策，促使硬件市场在性能优化方面更具竞争力。

详细内容：

标题：关于不同硬件配置下模型处理速度的热门讨论

近日，Reddit 上一篇关于在不同硬件条件下测试 Llama-3.3-70b 模型处理速度的帖子引发了众多关注。该帖子详细列出了在 2xRTX-3090 和 M3-Max 64GB 上进行各种提示大小的测试结果，并引发了广泛而深入的讨论。帖子获得了大量的点赞和评论。

讨论的焦点主要集中在不同硬件配置的性能差异以及各自的优势和局限性。有人表示，拥有 2x3090 显卡的情况下，走 sgland/vllm/exllamav2 路线性能会更好，还有人分享了切换到不同模型和设置后处理速度的显著提升。

例如，有用户提到 2x3090 在这里，今天刚从 exllamav2 切换到 TGI（使用 AWQ 量化），短单轮提示的处理速度从 20 - 22 t/s 提升到 30 t/s。但也有人指出不同量化方式和模型在处理长上下文时存在的问题，如内存占用和速度下降。

对于 Mac 设备，有用户认为其在便携性、内存大小、能耗和噪音方面具有优势，但在处理速度上相对较慢。有人通过实验指出，在 Mac 上可以通过增加批量和微批量大小来稍微提高大上下文的提示处理速度，但效果因设备和配置而异。

在噪音和功耗方面，使用 3090 显卡的用户体验各不相同。有的用户表示没有听到明显噪音，而有的用户则认为存在噪音和功耗过高的问题，甚至需要特殊的电源配置。

关于不同硬件在机器学习和人工智能任务中的适用性，也存在不同观点。有人认为 Nvidia GPU 在功能和性能上更具优势，而有人则认为 Mac 结合 MLX 也能满足一定需求。

总的来说，这场讨论展示了不同硬件配置在处理模型时的复杂情况，也反映了用户在性能、便携性、能耗等多方面的权衡和思考。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#