每当我试图找到红色阵营的GPU LLM性能基准测试时，几乎找不到任何信息。我最近在另一个问题下的一条评论中提到mi60（显然有32GB VRAM，规格），因此我想看看那里的性能如何。

有没有比较AMD性能的基准测试？多GPU支持怎么样？我之前在（德国）eBay上看到过一对mi50。

顺便问一下：ROCm在ARM上能用吗，还是我必须为了这个买一个x86主板？

谢谢！

讨论总结

本次讨论主要集中在AMD显卡在大型语言模型（LLM）性能测试中的表现。参与者分享了他们在使用不同AMD显卡（如Radeon Pro VII、Mi25、MI100和MI60）进行LLM测试时的体验和数据。讨论内容涵盖了多GPU支持、ROCm在ARM上的兼容性问题、Ollama容器的使用情况以及不同模型的性能比较。总体上，讨论呈现出技术性和数据导向的特点，参与者分享了详细的性能数据和配置信息，为其他研究者和开发者提供了有价值的参考。

主要观点

👍 AMD显卡在LLM性能测试中的表现
- 支持理由：参与者分享了不同AMD显卡在LLM测试中的吞吐量数据，如Radeon Pro VII和Mi25在Linux和llama.cpp环境下的表现。
- 反对声音：部分参与者指出AMD显卡在提示评估方面的速度较慢，如MI60比NVIDIA 3090慢10倍。
🔥 多GPU支持与ROCm兼容性
- 正方观点：讨论了多GPU在不同配置下的表现，以及通过从源代码编译最新版本的Linux内核和Rocm堆栈可能提高速度。
- 反方观点：ROCm在ARM上的兼容性问题，需要x86主板。
💡 MI100与MI60的性能比较
- MI100在原始性能上与RTX 3090相当，拥有更多的VRAM和ROCm支持，而MI60则没有ROCm支持。
💡 冷却系统对性能的影响
- 更好的冷却系统可能提升AMD显卡的性能，如MI60在更好的冷却条件下可能提高吞吐量。
💡 Ollama容器的使用情况
- Ollama容器在不同操作系统上的使用情况，如在4x Radeon VII rig上使用Ollama:rocm容器。

金句与有趣评论

“😂 I have compiled both the latest linux kernel and Rocm stack from source, maybe that improved the speed a bit.”
- 亮点：分享了通过从源代码编译最新版本的Linux内核和Rocm堆栈可能提高速度的经验。
“🤔 With the default layer split, my speed was similar, enabling row split increased my t/s a lot.”
- 亮点：讨论了不同层分割方式对吞吐量的影响。
“👀 3*MI60 generating from L3 70B Q8 at 6 tps. if I could cool it better it would go higher.”
- 亮点：分享了MI60在生成70B Q8模型时的吞吐量数据，并提到更好的冷却系统可能提升性能。
“👀 It looks like MI100 is comparable to RTX 3090 on raw power, has more VRAM and ROCm support.”
- 亮点：比较了MI100与RTX 3090的原始性能，并提到MI100的VRAM和ROCm支持优势。
“👀 Funnily enough I just completed a dual MI100 build this week: [链接]”
- 亮点：分享了最近完成的双MI100构建项目，并提供了性能比较的链接。

情感分析

讨论的总体情感倾向较为中性，主要集中在技术性和数据导向的讨论上。参与者分享了详细的性能数据和配置信息，显示出对技术细节的关注和兴趣。主要分歧点在于AMD显卡与NVIDIA显卡在性能上的比较，以及ROCm在不同平台上的兼容性问题。

趋势与预测

新兴话题：AMD显卡在LLM性能测试中的进一步优化和多GPU支持的深入讨论。
潜在影响：对AI模型开发者和研究者在选择硬件平台时提供更多参考数据，可能影响未来硬件配置的选择和优化方向。

详细内容：

标题：关于 AMD LLM t/s 性能图表和基准的热门探讨

在 Reddit 上，有一个关于寻找 AMD GPU LLM 性能基准的帖子引发了热烈讨论。该帖子表示，在寻找 AMD 这方面性能的基准时收获甚微，在他人建议下想了解 mi60 的性能，还询问了多 GPU 支持以及 ROCm 在 ARM 上的运行情况等问题。此帖获得了众多关注，评论数众多，大家围绕相关话题展开了深入探讨。

讨论焦点与观点分析：有人拥有 3 块 Radeon pro VII 和一块 Mi25 显卡，分享了在不同模型下的性能测试结果，比如在 llama 3.1 8B Q8 模型下，Radeon VII 达到 52 t/s，Mi25 为 32 t/s 等，并表示从源代码编译最新的 Linux 内核和 ROCm 堆栈可能会提升速度。有用户称在其 4 块 Radeon VII 设备上使用默认的 ollama:rocm 容器，LLama 3.1 70b 的性能约为 9 t/s，还提到知道能再提升一点性能很不错。有人指出使用默认层分割时速度相似，但启用行分割能大幅提高 t/s，而 ollama 无法进行行分割，这使得在旧款 GPU 上使用变得困难。还有用户询问在 Windows 系统上使用 ollama 运行多块 AMD 显卡是否可行，得到的回复是 Radeon VII 在 Windows 上不支持 ROCM，新款显卡在 Windows 上可以运行，ollama 网站上有兼容显卡列表。有人询问关于 MI25 的 ROCm 6 支持问题，被告知常规的 Rocm 6.1 安装可行，但需要在.bashrc 中添加 export HSA_ENABLE_SDMA=0，从源代码编译 ROCm 则无需此操作。有用户提到 MI100 与 RTX 3090 在原始功率上相当，有更多 VRAM 和 ROCm 支持，而 MI60 不支持 ROCm。还有人分享 3 块 MI60 在 L3 70B Q8 模型下生成速度为 6 tps，并表示若散热更好速度会更高。更有用户分享了双 MI100 构建的经历，并提供了相关链接。

在这场讨论中，大家对于 AMD 显卡在不同模型和系统下的性能表现、ROCm 的支持情况以及多 GPU 配置等方面各抒己见，为广大关注 AMD 显卡 LLM 性能的用户提供了丰富的参考和思考。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#