原贴链接

每当我试图找到红色阵营的GPU LLM性能基准测试时,几乎找不到任何信息。我最近在另一个问题下的一条评论中提到mi60(显然有32GB VRAM,规格),因此我想看看那里的性能如何。

有没有比较AMD性能的基准测试?多GPU支持怎么样?我之前在(德国)eBay上看到过一对mi50。

顺便问一下:ROCm在ARM上能用吗,还是我必须为了这个买一个x86主板?

谢谢!

讨论总结

本次讨论主要集中在AMD显卡在大型语言模型(LLM)性能测试中的表现。参与者分享了他们在使用不同AMD显卡(如Radeon Pro VII、Mi25、MI100和MI60)进行LLM测试时的体验和数据。讨论内容涵盖了多GPU支持、ROCm在ARM上的兼容性问题、Ollama容器的使用情况以及不同模型的性能比较。总体上,讨论呈现出技术性和数据导向的特点,参与者分享了详细的性能数据和配置信息,为其他研究者和开发者提供了有价值的参考。

主要观点

  1. 👍 AMD显卡在LLM性能测试中的表现

    • 支持理由:参与者分享了不同AMD显卡在LLM测试中的吞吐量数据,如Radeon Pro VII和Mi25在Linux和llama.cpp环境下的表现。
    • 反对声音:部分参与者指出AMD显卡在提示评估方面的速度较慢,如MI60比NVIDIA 3090慢10倍。
  2. 🔥 多GPU支持与ROCm兼容性

    • 正方观点:讨论了多GPU在不同配置下的表现,以及通过从源代码编译最新版本的Linux内核和Rocm堆栈可能提高速度。
    • 反方观点:ROCm在ARM上的兼容性问题,需要x86主板。
  3. 💡 MI100与MI60的性能比较

    • MI100在原始性能上与RTX 3090相当,拥有更多的VRAM和ROCm支持,而MI60则没有ROCm支持。
  4. 💡 冷却系统对性能的影响

    • 更好的冷却系统可能提升AMD显卡的性能,如MI60在更好的冷却条件下可能提高吞吐量。
  5. 💡 Ollama容器的使用情况

    • Ollama容器在不同操作系统上的使用情况,如在4x Radeon VII rig上使用Ollama:rocm容器。

金句与有趣评论

  1. “😂 I have compiled both the latest linux kernel and Rocm stack from source, maybe that improved the speed a bit.”

    • 亮点:分享了通过从源代码编译最新版本的Linux内核和Rocm堆栈可能提高速度的经验。
  2. “🤔 With the default layer split, my speed was similar, enabling row split increased my t/s a lot.”

    • 亮点:讨论了不同层分割方式对吞吐量的影响。
  3. “👀 3*MI60 generating from L3 70B Q8 at 6 tps. if I could cool it better it would go higher.”

    • 亮点:分享了MI60在生成70B Q8模型时的吞吐量数据,并提到更好的冷却系统可能提升性能。
  4. “👀 It looks like MI100 is comparable to RTX 3090 on raw power, has more VRAM and ROCm support.”

    • 亮点:比较了MI100与RTX 3090的原始性能,并提到MI100的VRAM和ROCm支持优势。
  5. “👀 Funnily enough I just completed a dual MI100 build this week: [链接]”

    • 亮点:分享了最近完成的双MI100构建项目,并提供了性能比较的链接。

情感分析

讨论的总体情感倾向较为中性,主要集中在技术性和数据导向的讨论上。参与者分享了详细的性能数据和配置信息,显示出对技术细节的关注和兴趣。主要分歧点在于AMD显卡与NVIDIA显卡在性能上的比较,以及ROCm在不同平台上的兼容性问题。

趋势与预测

  • 新兴话题:AMD显卡在LLM性能测试中的进一步优化和多GPU支持的深入讨论。
  • 潜在影响:对AI模型开发者和研究者在选择硬件平台时提供更多参考数据,可能影响未来硬件配置的选择和优化方向。

详细内容:

标题:关于 AMD LLM t/s 性能图表和基准的热门探讨

在 Reddit 上,有一个关于寻找 AMD GPU LLM 性能基准的帖子引发了热烈讨论。该帖子表示,在寻找 AMD 这方面性能的基准时收获甚微,在他人建议下想了解 mi60 的性能,还询问了多 GPU 支持以及 ROCm 在 ARM 上的运行情况等问题。此帖获得了众多关注,评论数众多,大家围绕相关话题展开了深入探讨。

讨论焦点与观点分析: 有人拥有 3 块 Radeon pro VII 和一块 Mi25 显卡,分享了在不同模型下的性能测试结果,比如在 llama 3.1 8B Q8 模型下,Radeon VII 达到 52 t/s,Mi25 为 32 t/s 等,并表示从源代码编译最新的 Linux 内核和 ROCm 堆栈可能会提升速度。 有用户称在其 4 块 Radeon VII 设备上使用默认的 ollama:rocm 容器,LLama 3.1 70b 的性能约为 9 t/s,还提到知道能再提升一点性能很不错。 有人指出使用默认层分割时速度相似,但启用行分割能大幅提高 t/s,而 ollama 无法进行行分割,这使得在旧款 GPU 上使用变得困难。 还有用户询问在 Windows 系统上使用 ollama 运行多块 AMD 显卡是否可行,得到的回复是 Radeon VII 在 Windows 上不支持 ROCM,新款显卡在 Windows 上可以运行,ollama 网站上有兼容显卡列表。 有人询问关于 MI25 的 ROCm 6 支持问题,被告知常规的 Rocm 6.1 安装可行,但需要在.bashrc 中添加 export HSA_ENABLE_SDMA=0,从源代码编译 ROCm 则无需此操作。 有用户提到 MI100 与 RTX 3090 在原始功率上相当,有更多 VRAM 和 ROCm 支持,而 MI60 不支持 ROCm。 还有人分享 3 块 MI60 在 L3 70B Q8 模型下生成速度为 6 tps,并表示若散热更好速度会更高。 更有用户分享了双 MI100 构建的经历,并提供了相关链接。

在这场讨论中,大家对于 AMD 显卡在不同模型和系统下的性能表现、ROCm 的支持情况以及多 GPU 配置等方面各抒己见,为广大关注 AMD 显卡 LLM 性能的用户提供了丰富的参考和思考。