原贴链接

我致力于在树莓派上启用AMD显卡已经有一段时间了。最近,我们(主要不是我,我只是善于整合事务,而不是开发驱动程序)让大部分Linux的amdgpu驱动程序在树莓派5的Pi OS系统上运行起来了。在一些帮助下,我编译了支持Vulkan的llama.cpp,用于我手头的几款AMD显卡,并且我正在这里编译一些基准测试结果:https://github.com/geerlingguy/ollama - benchmark/issues/1。我的问题是,由于我在大型语言模型(LLM)领域是个新手,你们还想知道什么?我还应该测试什么?我打算挑选几款低端的AMD显卡,看看它们在价格/性能/效率方面的比较情况。

讨论总结

原帖作者致力于在树莓派5上实现AMD GPU对llama.cpp的支持,并分享了编译结果,询问还需进行哪些测试。评论者们积极回应,整体氛围积极友好,涵盖多个方面的内容,包括对原帖作者工作的肯定、技术相关的分享与讨论、性能和功耗方面的探讨、不同技术应用的比较、特定设备运行的可能性等。

主要观点

  1. 👍 对原帖作者将AMD GPU支持引入Pi的工作表示肯定
    • 支持理由:原帖作者在将AMD GPU支持引入Pi方面做出努力,如FullstackSensei称赞工作很棒。
    • 反对声音:无
  2. 🔥 给出llama - bench运行的测试参数及对应的测试内容
    • 正方观点:kryptkpr提供了运行llama - bench的4种测试内容相关的参数。
    • 反方观点:无
  3. 💡 建议AMD卡使用hipblas替代vulkan
    • 支持理由:EL - EL - EM认为hipblas有优势并给出相关链接。
    • 反对声音:ULterior - Motive_指出ROCm在非官方支持操作系统上运行困难,不确定是否值得调整。
  4. 💡 Vulcan比ROCM速度慢很多
    • 支持理由:SuperChewbacca指出Vulcan比ROCM要慢很多。
    • 反对声音:无
  5. 💡 关注在Orange Pi 5上运行的可能性
    • 支持理由:ApprehensiveAd3629询问是否可在Orange Pi 5上运行相关内容。
    • 反对声音:原帖作者表示尚未见到有人让GPU在任何RK3588单板计算机上工作过。

金句与有趣评论

  1. “😂 FullstackSensei: Happy to see you here Jeff! Nice work bringing support for AMD GPUs to the Pi!”
    • 亮点:表达对原帖作者的欢迎和对其工作的肯定,体现积极的讨论氛围。
  2. “🤔 This runs 4 tests: - generate 128 tokens with zero context - process 512 and 4096 token prompts - process a 4096 token prompt then generate 128 tokens”
    • 亮点:提供了关于llama - bench运行测试的具体参数和内容,有技术参考价值。
  3. “👀 195W of GPU, 20W host… Very ridiculous, I love it. Exactly the kind of content I want to see more of on this forum, kudos.”
    • 亮点:通过描述GPU和主机的功耗数据,并表达喜爱之情,体现对特定测试结果的关注。
  4. “😂 SuperChewbacca: Vulcan is still better than CPU inference! Cool that you got it working :)”
    • 亮点:比较了Vulcan和CPU推理,同时对原帖作者工作表示赞赏。
  5. “🤔 我急切地期待您关于这个的视频!!!”
    • 亮点:简洁地表达出对原帖主题后续视频内容的期待。

情感分析

总体情感倾向是积极的。主要分歧点在于一些技术应用的选择上,如AMD卡是使用hipblas还是vulkan,以及Vulcan和ROCM速度比较方面。可能的原因是不同技术在不同环境和需求下各有优劣,评论者从各自的理解和经验出发提出不同看法。

趋势与预测

  • 新兴话题:在树莓派或类似设备上对ARM CPU优化量化的应用,以及不同硬件设备(如NVIDIA GPU在树莓派5上)在LLM推理方面的适用性。
  • 潜在影响:对AMD GPU在树莓派等设备上的应用发展提供参考,有助于进一步优化硬件与软件(如llama.cpp)的结合使用,推动小型设备在大型语言模型领域的应用探索。

详细内容:

标题:AMD GPU 在树莓派 5 上通过 Vulkan 支持 llama.cpp 引发的热烈讨论

在 Reddit 上,一则关于在树莓派 5 上实现 AMD GPU 支持 llama.cpp 的帖子引起了广泛关注。该帖子作者表示自己一直致力于此工作,目前已使大部分 Linux amdgpu 驱动在 Pi OS 上与树莓派 5 适配,还编译了一些基准测试结果并分享了链接:https://github.com/geerlingguy/ollama-benchmark/issues/1 。此贴获得了众多点赞和大量评论。

讨论焦点主要集中在测试方向、性能表现以及优化方法等方面。有人指出可以进行如“llama-bench -n 128 -p 512,4096 -pg 4096,128 -ngl 99 -r 2”这样的测试,涵盖多种场景。有人认为对于树莓派,应关注小型模型如 gemma 2b、llama 3.2 3b、Qwen2.5 1.5b/3b 等。

有人提到,相比单纯的树莓派 5 8GB 版本,在模型测试方面有明显差异。比如:

ModelSizeParamsBackendThreadsTestt/s
llama 1B Q4_K - Medium762.81 MiB1.24 BCPU4pp51240.06 ± 0.57

还有人建议使用 hipblas 而非 Vulkan 来提升 AMD 卡的性能,并提供了相关链接:https://www.phoronix.com/news/ARM64-AMDKFD-HSA-Compute 。但也有人认为 ROCm 在非官方支持的操作系统上难以配置。

有人提出可以利用特定的编译标志和优化手段来提高性能,例如针对 Arm SOCs 的特殊量化水平等。

关于是否能在其他类似设备如橙色派 5 上运行,作者表示尚未看到相关成功案例。

在讨论中,大家在优化方案和性能表现等方面存在不同观点。有人认为 Vulkan 不如 ROCM 速度快,也有人觉得尽管有不足,Vulkan 仍比 CPU 推断出色。而对于较大模型在 CPU 和 GPU 间的分配,有人认为并非最优设置。

总的来说,这次关于 AMD GPU 在树莓派 5 上支持 llama.cpp 的讨论十分热烈,为相关技术的发展和应用提供了丰富的思路和方向。