原贴链接

我致力于在树莓派上启用AMD显卡已经有一段时间了。最近，我们（主要不是我，我只是善于整合事务，而不是开发驱动程序）让大部分Linux的amdgpu驱动程序在树莓派5的Pi OS系统上运行起来了。在一些帮助下，我编译了支持Vulkan的llama.cpp，用于我手头的几款AMD显卡，并且我正在这里编译一些基准测试结果：https://github.com/geerlingguy/ollama - benchmark/issues/1。我的问题是，由于我在大型语言模型（LLM）领域是个新手，你们还想知道什么？我还应该测试什么？我打算挑选几款低端的AMD显卡，看看它们在价格/性能/效率方面的比较情况。

讨论总结

原帖作者致力于在树莓派5上实现AMD GPU对llama.cpp的支持，并分享了编译结果，询问还需进行哪些测试。评论者们积极回应，整体氛围积极友好，涵盖多个方面的内容，包括对原帖作者工作的肯定、技术相关的分享与讨论、性能和功耗方面的探讨、不同技术应用的比较、特定设备运行的可能性等。

主要观点

👍 对原帖作者将AMD GPU支持引入Pi的工作表示肯定
- 支持理由：原帖作者在将AMD GPU支持引入Pi方面做出努力，如FullstackSensei称赞工作很棒。
- 反对声音：无
🔥 给出llama - bench运行的测试参数及对应的测试内容
- 正方观点：kryptkpr提供了运行llama - bench的4种测试内容相关的参数。
- 反方观点：无
💡 建议AMD卡使用hipblas替代vulkan
- 支持理由：EL - EL - EM认为hipblas有优势并给出相关链接。
- 反对声音：ULterior - Motive_指出ROCm在非官方支持操作系统上运行困难，不确定是否值得调整。
💡 Vulcan比ROCM速度慢很多
- 支持理由：SuperChewbacca指出Vulcan比ROCM要慢很多。
- 反对声音：无
💡 关注在Orange Pi 5上运行的可能性
- 支持理由：ApprehensiveAd3629询问是否可在Orange Pi 5上运行相关内容。
- 反对声音：原帖作者表示尚未见到有人让GPU在任何RK3588单板计算机上工作过。

金句与有趣评论

“😂 FullstackSensei: Happy to see you here Jeff! Nice work bringing support for AMD GPUs to the Pi!”
- 亮点：表达对原帖作者的欢迎和对其工作的肯定，体现积极的讨论氛围。
“🤔 This runs 4 tests: - generate 128 tokens with zero context - process 512 and 4096 token prompts - process a 4096 token prompt then generate 128 tokens”
- 亮点：提供了关于llama - bench运行测试的具体参数和内容，有技术参考价值。
“👀 195W of GPU, 20W host… Very ridiculous, I love it. Exactly the kind of content I want to see more of on this forum, kudos.”
- 亮点：通过描述GPU和主机的功耗数据，并表达喜爱之情，体现对特定测试结果的关注。
“😂 SuperChewbacca: Vulcan is still better than CPU inference! Cool that you got it working :)”
- 亮点：比较了Vulcan和CPU推理，同时对原帖作者工作表示赞赏。
“🤔 我急切地期待您关于这个的视频！！！”
- 亮点：简洁地表达出对原帖主题后续视频内容的期待。

情感分析

总体情感倾向是积极的。主要分歧点在于一些技术应用的选择上，如AMD卡是使用hipblas还是vulkan，以及Vulcan和ROCM速度比较方面。可能的原因是不同技术在不同环境和需求下各有优劣，评论者从各自的理解和经验出发提出不同看法。

趋势与预测

新兴话题：在树莓派或类似设备上对ARM CPU优化量化的应用，以及不同硬件设备（如NVIDIA GPU在树莓派5上）在LLM推理方面的适用性。
潜在影响：对AMD GPU在树莓派等设备上的应用发展提供参考，有助于进一步优化硬件与软件（如llama.cpp）的结合使用，推动小型设备在大型语言模型领域的应用探索。

详细内容：

标题：AMD GPU 在树莓派 5 上通过 Vulkan 支持 llama.cpp 引发的热烈讨论

在 Reddit 上，一则关于在树莓派 5 上实现 AMD GPU 支持 llama.cpp 的帖子引起了广泛关注。该帖子作者表示自己一直致力于此工作，目前已使大部分 Linux amdgpu 驱动在 Pi OS 上与树莓派 5 适配，还编译了一些基准测试结果并分享了链接：https://github.com/geerlingguy/ollama-benchmark/issues/1 。此贴获得了众多点赞和大量评论。

讨论焦点主要集中在测试方向、性能表现以及优化方法等方面。有人指出可以进行如“llama-bench -n 128 -p 512,4096 -pg 4096,128 -ngl 99 -r 2”这样的测试，涵盖多种场景。有人认为对于树莓派，应关注小型模型如 gemma 2b、llama 3.2 3b、Qwen2.5 1.5b/3b 等。

有人提到，相比单纯的树莓派 5 8GB 版本，在模型测试方面有明显差异。比如：

Model	Size	Params	Backend	Threads	Test	t/s
llama 1B Q4_K - Medium	762.81 MiB	1.24 B	CPU	4	pp512	40.06 ± 0.57

还有人建议使用 hipblas 而非 Vulkan 来提升 AMD 卡的性能，并提供了相关链接：https://www.phoronix.com/news/ARM64-AMDKFD-HSA-Compute 。但也有人认为 ROCm 在非官方支持的操作系统上难以配置。

有人提出可以利用特定的编译标志和优化手段来提高性能，例如针对 Arm SOCs 的特殊量化水平等。

关于是否能在其他类似设备如橙色派 5 上运行，作者表示尚未看到相关成功案例。

在讨论中，大家在优化方案和性能表现等方面存在不同观点。有人认为 Vulkan 不如 ROCM 速度快，也有人觉得尽管有不足，Vulkan 仍比 CPU 推断出色。而对于较大模型在 CPU 和 GPU 间的分配，有人认为并非最优设置。

总的来说，这次关于 AMD GPU 在树莓派 5 上支持 llama.cpp 的讨论十分热烈，为相关技术的发展和应用提供了丰富的思路和方向。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#