原贴链接

所以今天我花了一整天时间试图让Llama 3.1 8b在NPU上运行。我确实成功了。它很慢。非常慢。NPU利用率大约80%,内存使用量为8GB(NPU内存)。我每秒大约得到2个令牌。

我使用了dahara1/llama3.1-8b-Instruct-amd-npu · Hugging Face

我想知道NPU是否值得,现在我知道了。你也知道了。

讨论总结

本次讨论主要围绕AMD Ryzen AI NPU(Ryzen 7 7840HS)在运行大型语言模型(如Llama 3.1 8b)时的性能表现和适用性。多数用户通过实际测试发现,尽管NPU的利用率高达80%,但处理速度极慢,每秒仅能生成2个令牌,显示出NPU在处理复杂模型时的性能限制。讨论中普遍认为,NPU更适合处理如视频背景模糊、背景噪音消除等简单AI任务,而对于大型语言模型,iGPU或GPU可能是更好的选择。此外,讨论还涉及了NPU的能耗优势、驱动获取的不便性以及未来可能的改进方向。

主要观点

  1. 👍 NPU性能限制
    • 支持理由:实际测试显示NPU在运行大型语言模型时速度极慢,每秒仅能生成2个令牌。
    • 反对声音:无明显反对,但有用户提到未来软件改进可能提升性能。
  2. 🔥 NPU能耗优势
    • 正方观点:NPU在处理简单AI任务时能耗较低,有助于延长笔记本电池寿命。
    • 反方观点:对于复杂模型,能耗优势不明显,性能瓶颈更为关键。
  3. 💡 iGPU推荐
    • 解释:多数用户认为对于大型语言模型,iGPU或GPU在性能上远超NPU,更适合处理复杂任务。
  4. 👀 视觉模型适用
    • 解释:NPU更适合处理如视频背景模糊、背景噪音消除等视觉任务,这些任务不特别密集但可能长时间运行。
  5. 🚀 内存带宽影响
    • 解释:内存带宽是影响NPU性能的关键因素,未来从DDR转向HBM可能显著提升性能。

金句与有趣评论

  1. “😂 rorowhat:I think this NPU has only 15 TOPs, so it’s not very powerful. It’s more for vision models.”
    • 亮点:直接指出NPU的性能限制,强调其更适合视觉模型。
  2. “🤔 DrVonSinistro:Strangely, the AMD NPU driver is only available by filling a form.. So I guess iGPU is truly the mass consumer path.”
    • 亮点:揭示NPU驱动获取的不便性,暗示iGPU更受大众欢迎。
  3. “👀 PermanentLiminality:Adding a NPU doesn’t magically make the RAM faster.”
    • 亮点:强调NPU并不能解决RAM速度的限制问题。

情感分析

讨论的总体情感倾向较为中性,多数用户通过实际测试得出结论,对NPU的性能表示失望,但也有用户对未来改进抱有期待。主要分歧点在于NPU的适用场景,部分用户认为NPU更适合简单AI任务,而另一部分用户则期待其在大型语言模型上的表现。

趋势与预测

  • 新兴话题:随着软件的改进和更强大的NPU的开发,未来可能会看到更好的性能。
  • 潜在影响:对于某些需求,如果不需要高性能的CUDA机器,更便宜的AMD(在Vulkan下)选项可能更适合。

详细内容:

标题:AMD Ryzen AI NPU 性能测试引发的热议

近日,有用户在 Reddit 上分享了自己花费一整天让 Llama 3.1 8b 在 AMD Ryzen AI NPU 上运行的经历,该帖子获得了众多关注和热烈讨论。原帖提到,尽管最终成功运行,但速度非常慢,NPU 利用率约 80%,内存使用 8GB,每秒仅生成约 2 个令牌。帖子使用了https://huggingface.co/dahara1/llama3.1-8b-Instruct-amd-npu。这一测试引发了关于 AMD Ryzen AI NPU 是否值得以及其性能表现的广泛探讨。

讨论焦点与观点分析: 有人认为,此款 NPU 只有约 15 TOPs,性能不强,更适用于视觉模型,其优势在于运行简单 AI 模型时功耗低于 GPU 或 CPU。比如,有人提到 NPU 对于模糊视频背景、屏蔽背景噪音等任务效果较好,能延长笔记本电池续航。但也有人指出,对于像 LLM 这样的任务,通过 iGPU 经由 Vulcan 运行效果可能更好。 有用户提供了新的 HX 370 声称有高达 50 NPU TOPS 的信息,并探讨其运行 LLM 是否会显著更快。 还有用户分享了不同硬件配置下的性能表现,如在冷房间中,CPU 和 GPU 在空闲时约 30°C,负载时约 45°C,温度对性能影响较大。有人在 40 美元的 p102 GPU 上能达到 35 个令牌/秒。 关于 NPU 的发展,有人认为目前还处于早期阶段,随着软件优化和更强性能的 NPUs 出现,未来性能有望提升。但也有人对其当前表现感到失望,认为其设置复杂且效果不佳,比如有人认为其速度远低于预期,并非像预期那样成为主导,英伟达可能更具优势。 同时,有人探讨了内存带宽、核心数量等硬件参数对性能的影响。还有用户关心 NPU 是否能访问全部系统内存,以及提示处理速度等问题。

总之,这次关于 AMD Ryzen AI NPU 的讨论展现了大家对其性能和应用前景的关注和期待,也反映了当前存在的一些疑虑和挑战。