每当我试图找到红色阵营的GPU LLM性能基准测试时,几乎找不到任何信息。我最近在另一个问题下的一条评论中提到mi60(显然有32GB VRAM,规格),因此我想看看那里的性能如何。
有没有比较AMD性能的基准测试?多GPU支持怎么样?我之前在(德国)eBay上看到过一对mi50。
顺便问一下:ROCm在ARM上能用吗,还是我必须为了这个买一个x86主板?
谢谢!
讨论总结
本次讨论主要集中在AMD显卡在大型语言模型(LLM)性能测试中的表现。参与者分享了他们在使用不同AMD显卡(如Radeon Pro VII、Mi25、MI100和MI60)进行LLM测试时的体验和数据。讨论内容涵盖了多GPU支持、ROCm在ARM上的兼容性问题、Ollama容器的使用情况以及不同模型的性能比较。总体上,讨论呈现出技术性和数据导向的特点,参与者分享了详细的性能数据和配置信息,为其他研究者和开发者提供了有价值的参考。
主要观点
👍 AMD显卡在LLM性能测试中的表现
- 支持理由:参与者分享了不同AMD显卡在LLM测试中的吞吐量数据,如Radeon Pro VII和Mi25在Linux和llama.cpp环境下的表现。
- 反对声音:部分参与者指出AMD显卡在提示评估方面的速度较慢,如MI60比NVIDIA 3090慢10倍。
🔥 多GPU支持与ROCm兼容性
- 正方观点:讨论了多GPU在不同配置下的表现,以及通过从源代码编译最新版本的Linux内核和Rocm堆栈可能提高速度。
- 反方观点:ROCm在ARM上的兼容性问题,需要x86主板。
💡 MI100与MI60的性能比较
- MI100在原始性能上与RTX 3090相当,拥有更多的VRAM和ROCm支持,而MI60则没有ROCm支持。
💡 冷却系统对性能的影响
- 更好的冷却系统可能提升AMD显卡的性能,如MI60在更好的冷却条件下可能提高吞吐量。
💡 Ollama容器的使用情况
- Ollama容器在不同操作系统上的使用情况,如在4x Radeon VII rig上使用Ollama:rocm容器。
金句与有趣评论
“😂 I have compiled both the latest linux kernel and Rocm stack from source, maybe that improved the speed a bit.”
- 亮点:分享了通过从源代码编译最新版本的Linux内核和Rocm堆栈可能提高速度的经验。
“🤔 With the default layer split, my speed was similar, enabling row split increased my t/s a lot.”
- 亮点:讨论了不同层分割方式对吞吐量的影响。
“👀 3*MI60 generating from L3 70B Q8 at 6 tps. if I could cool it better it would go higher.”
- 亮点:分享了MI60在生成70B Q8模型时的吞吐量数据,并提到更好的冷却系统可能提升性能。
“👀 It looks like MI100 is comparable to RTX 3090 on raw power, has more VRAM and ROCm support.”
- 亮点:比较了MI100与RTX 3090的原始性能,并提到MI100的VRAM和ROCm支持优势。
“👀 Funnily enough I just completed a dual MI100 build this week: [链接]”
- 亮点:分享了最近完成的双MI100构建项目,并提供了性能比较的链接。
情感分析
讨论的总体情感倾向较为中性,主要集中在技术性和数据导向的讨论上。参与者分享了详细的性能数据和配置信息,显示出对技术细节的关注和兴趣。主要分歧点在于AMD显卡与NVIDIA显卡在性能上的比较,以及ROCm在不同平台上的兼容性问题。
趋势与预测
- 新兴话题:AMD显卡在LLM性能测试中的进一步优化和多GPU支持的深入讨论。
- 潜在影响:对AI模型开发者和研究者在选择硬件平台时提供更多参考数据,可能影响未来硬件配置的选择和优化方向。
详细内容:
标题:关于 AMD LLM t/s 性能图表和基准的热门探讨
在 Reddit 上,有一个关于寻找 AMD GPU LLM 性能基准的帖子引发了热烈讨论。该帖子表示,在寻找 AMD 这方面性能的基准时收获甚微,在他人建议下想了解 mi60 的性能,还询问了多 GPU 支持以及 ROCm 在 ARM 上的运行情况等问题。此帖获得了众多关注,评论数众多,大家围绕相关话题展开了深入探讨。
讨论焦点与观点分析:
有人拥有 3 块 Radeon pro VII 和一块 Mi25 显卡,分享了在不同模型下的性能测试结果,比如在 llama 3.1 8B Q8 模型下,Radeon VII 达到 52 t/s,Mi25 为 32 t/s 等,并表示从源代码编译最新的 Linux 内核和 ROCm 堆栈可能会提升速度。
有用户称在其 4 块 Radeon VII 设备上使用默认的 ollama:rocm 容器,LLama 3.1 70b 的性能约为 9 t/s,还提到知道能再提升一点性能很不错。
有人指出使用默认层分割时速度相似,但启用行分割能大幅提高 t/s,而 ollama 无法进行行分割,这使得在旧款 GPU 上使用变得困难。
还有用户询问在 Windows 系统上使用 ollama 运行多块 AMD 显卡是否可行,得到的回复是 Radeon VII 在 Windows 上不支持 ROCM,新款显卡在 Windows 上可以运行,ollama 网站上有兼容显卡列表。
有人询问关于 MI25 的 ROCm 6 支持问题,被告知常规的 Rocm 6.1 安装可行,但需要在.bashrc 中添加 export HSA_ENABLE_SDMA=0
,从源代码编译 ROCm 则无需此操作。
有用户提到 MI100 与 RTX 3090 在原始功率上相当,有更多 VRAM 和 ROCm 支持,而 MI60 不支持 ROCm。
还有人分享 3 块 MI60 在 L3 70B Q8 模型下生成速度为 6 tps,并表示若散热更好速度会更高。
更有用户分享了双 MI100 构建的经历,并提供了相关链接。
在这场讨论中,大家对于 AMD 显卡在不同模型和系统下的性能表现、ROCm 的支持情况以及多 GPU 配置等方面各抒己见,为广大关注 AMD 显卡 LLM 性能的用户提供了丰富的参考和思考。
感谢您的耐心阅读!来选个表情,或者留个评论吧!