在最近的YouTube视频(https://www.youtube.com/watch?v=OwUm - 4I22QI&t = 520s)中,我们可以看到使用Ollama和qwen2.5 - coder:32b模型对M4 MAX Pro和M2每秒标记(tokens per second)性能进行比较。结果为:M4 MAX Pro为19.77个标记/秒,M2为14.86个标记/秒。我在装有AMD Ryzen 7 5800X 8核处理器、128GB G - Skill无缓冲(未注册)3200MHz内存和带有24GB显存的NVIDIA GeForce RTX 3090的Ubuntu 22.04系统上进行了相同测试,我只得到了5.95个标记/秒。我原本期望RTX 3090能有更好的结果。你们怎么看待这样的性能呢?更新:通过终止占用显存的进程解决了这个问题,然后Ollama和qwen2.5 - coder:32b模型的性能达到了35.64个标记/秒。我想我现在不需要花钱买M4了 :)
讨论总结
原帖作者对M4 MAX Pro、M2和NVIDIA RTX 3090性能进行比较,发现自己在RTX 3090上得到的性能结果远低于预期。评论者们主要围绕性能未达预期这一情况展开讨论,很多人认为原帖作者设备设置、安装方面可能存在问题,还有人从技术层面进行分析,如VRAM的上下文长度、是否同时加载多个模型等,此外,有评论者对ollama提出负面看法并给出替代工具建议。
主要观点
- 👍 原帖作者的设备设置或安装存在问题
- 支持理由:多位评论者在类似设备上有更好性能表现,原帖作者在解决问题后性能提升。
- 反对声音:无
- 🔥 3090正常情况下性能应远超M4 Max(针对适合VRAM的模型)
- 正方观点:评论者根据自己的经验和对硬件性能的了解做出判断。
- 反方观点:无
- 💡 ollama自动决定卸载层数存在弊端,导致性能下降
- 解释:ollama在模型大小接近最大可用显存时表现不佳,会自动卸载工作到CPU从而影响速度。
金句与有趣评论
- “😂 Such_Advantage_6949:Something wrong about your setup. On my 3090 i get 35 tok/s with exllama easily”
- 亮点:直接指出原帖作者设置可能存在问题,并给出自己在相同设备上的较好性能数据。
- “🤔 viperx7: I run the same model on my 4090 fully on GPU at 60 - 80 tok/s”
- 亮点:通过给出自己在更高级设备上的高性能数据,暗示原帖作者的结果不正常。
- “👀 Bet it’s your context length taking you over 24gb in VRAM and you’re being offloaded to CPU”
- 亮点:从VRAM的上下文长度方面提出了对性能未达预期的一种推测。
情感分析
总体情感倾向是理性探讨,大家主要目的是分析原帖中RTX 3090性能未达预期的原因。主要分歧点较少,可能是因为大部分评论者都是从技术层面进行分析,都在尝试找出性能差异背后的真正原因,而不是互相争论。
趋势与预测
- 新兴话题:关于ollama的替代工具可能会引发后续讨论,如lama.cpp或者Exllama v2的使用情况和性能对比。
- 潜在影响:对于硬件使用者来说,有助于他们在进行类似性能测试时避免出现原帖作者的问题,提高设备性能的利用效率;对于ollama开发者来说,如果这种负面评价是普遍存在的问题,可能需要对软件进行优化改进。
详细内容:
标题:M4 MAX Pro、M2 与 NVIDIA RTX 3090 性能对比引发热议
最近,Reddit 上一篇关于 M4 MAX Pro、M2 与 NVIDIA RTX 3090 性能对比的帖子引起了广泛关注。该帖子在https://www.youtube.com/watch?v=OwUm-4I22QI&t=520s中展示了使用 Ollama 与 qwen2.5-coder:32b 模型时,M4 MAX Pro 每秒产生 19.77 个令牌,M2 每秒产生 14.86 个令牌,而发帖人在其配备 AMD Ryzen 7 5800X 8 核处理器、128GB 内存和 NVIDIA GeForce RTX 3090 显卡的 Ubuntu 22.04 系统上,仅得到 5.95 个令牌/秒,这让他对 RTX 3090 的性能表现感到意外。此帖获得了众多点赞和大量评论,大家主要围绕着造成这种性能差异的原因展开了激烈讨论。
在讨论中,观点纷呈。有人表示自己的 3090 能轻松达到 35 个令牌/秒,认为发帖人的设置有问题。还有人指出性能取决于模型,不同模型的表现差异较大。比如,有人测试了 vanilj/Phi-4 模型,得到了 72.91 个令牌/秒的结果。有人提到使用 tabby API 和启用 dwraf 模型能提高性能,并提供了相关链接https://github.com/theroyallab/tabbyAPI。有人认为可能是模型加载方式、是否将所有层加载到 GPU 以及 VRAM 占用等原因影响了性能。有人猜测是上下文长度超过 24GB 的 VRAM 导致被卸载到 CPU。还有人指出可能同时加载了多个模型,导致处于部分 CPU 模式,影响了速度。
不过也有共识存在,大家都认为发帖人的性能表现确实存在异常,需要排查问题。特别有见地的观点是,有人指出 Ollama 自动决定卸载层数可能做得不好,建议尝试其他模型,比如 llama.cpp 或 Exllama v2。
总之,这场关于不同硬件配置和模型性能表现的讨论十分热烈,为大家深入了解相关技术问题提供了丰富的视角和有价值的参考。
感谢您的耐心阅读!来选个表情,或者留个评论吧!