原贴链接

以下是相关名称以便你了解：苹果的NPU被称为ANE，之前仅为float16提供硬件加速，现在M4和A17系列增加了INT8。高通的NPU被称为Hexagon NPU，支持INT4、INT8、INT16，其中Snapdragon 8 Gen 2首次增加了INT4支持。接着列出了不同处理器（如A18 Pro、M2等）的NPU性能、GPU性能和带宽数据。根据人们使用新MacBook处理器的经验，批量处理时可能会出现热节流，所以NPU可能会很有用。目前ANE的支持可能仅在运行CoreML模型时有效，对于高通来说则是一些特定的Windows应用。并给出了两个相关链接（一个关于热节流，一个关于稳定扩散消耗电池）。

讨论总结

该讨论围绕苹果和骁龙的NPU展开，原帖给出两者NPU相关的性能数据。评论主要涉及不同硬件之间的性能对比，如SD Gen 2和3090 Ti，以及苹果芯片中NPU和GPU的对比；还探讨了在手机上利用NPU运行模型（如llama模型）的可能性、遇到的问题（软件尝试时手机死机、生成图像速度慢等）和局限性（如内存限制），同时也有从技术优势角度阐述NPU在长文本场景下的意义，整体氛围偏向理性的技术探讨。

主要观点

👍 对SD Gen 2和3090 Ti性能数据进行对比并分析能耗和性能关系
- 支持理由：两者性能数据对比明显，3090 Ti性能高但能耗也高很多，为大家提供了直观的性能和能耗对比信息。
- 反对声音：无。
🔥 探讨在手机上利用NPU运行批量llama模型的可能性
- 正方观点：NPU在处理模型运算上可能有潜力，手机方便携带，如果能利用NPU运行模型是很好的探索方向。
- 反方观点：目前遇到很多问题，如软件尝试时手机死机，生成速度不如其他方式等。
💡 理论上基础M3和M4芯片小模型在NPU上更快
- 解释：从芯片结构和性能理论上进行分析得出的观点。
💡 高级芯片GPU性能更好但NPU性能不变
- 解释：根据对芯片性能的理解得出的结论。
💡 NPU存在如4GB内存限制等局限性影响模型运算
- 解释：在实际探索中发现内存限制对模型运算有影响。

金句与有趣评论

“😂 Thanks for the table, I wasn’t aware SD gen 2 has 26 INT8 TOPS and most likely 52 INT4 TOPS. For comparison my 3090 Ti has 320 INT8 TOPS and 640 INT4 TOPS. So, it SD 8 Gen 2 consumes around 50 - 100x less energy but has only 12x less performance.”
- 亮点：通过具体数据对比，直观展现SD Gen 2和3090 Ti在能耗和性能上的关系。
“🤔 It’s weird how with all of those money going into ai and chips, Qualcomm or some phone manufacturer won’t just.. Set up an app where you can run this on the NPUs.”
- 亮点：提出了一个很实际的疑问，为什么在大量投入的情况下没有方便利用NPU的应用。
“👀 Tried mlc now, it just freezes the phone completely, tried again after restart and it froze the phone completely too, to the point where I need to hold the power button for 10s for power cut off, weird.”
- 亮点：生动描述了软件尝试时遇到的严重问题。

情感分析

总体情感倾向为中性。主要分歧点在于对NPU在不同场景下（如手机模型运算）的潜力看法不同，一些人看到潜力但在尝试过程中遇到很多问题，另一些人则从理论上分析NPU的优势。可能的原因是大家的关注点不同，有的侧重于实际操作体验，有的侧重于理论性能分析。

趋势与预测

新兴话题：对不同芯片下小模型在NPU和GPU上的性能比较可能会引发更多测试和讨论。
潜在影响：如果能更好地解决在手机上利用NPU运行模型的问题，可能会推动手机在人工智能运算方面的发展，也可能影响相关软件开发的方向。

详细内容：

《关于苹果和骁龙 NPU 的热门讨论》

近日，Reddit 上一则关于苹果和骁龙 NPU 信息的帖子引起了广泛关注。该帖子详细列举了苹果和骁龙不同处理器的 NPU 性能、GPU 性能和带宽等数据，点赞数众多，评论区也十分热闹。

帖子中提到，苹果的 NPU 称为 ANE，高通的 NPU 称为 Hexagon NPU，并给出了诸如 A18 Pro、M2 等多款处理器的详细性能参数。

讨论焦点与观点分析：有人感谢原帖提供的表格，并对比指出 SD 8 Gen 2 能耗低但性能也相对较弱。还有人表示，将模型转换为适用于 NPU 运行的过程较为复杂，因为 NPU 灵活性不如 GPU，且存在特殊设计。有人指出 executorch 模型支持范围狭窄。有人提到 Layla - network.ai 应用的免费版本及开发者关于 GPU 显存不足的问题。有人好奇小模型在苹果 NPU 上是否比 GPU 快，认为理论上基础款 M3 和 M4 芯片是这样，但高端款 GPU 性能更好。还有人探讨 NPU 对于长文本处理的改进作用，以及能否将 GPU 和 NPU 结合使用来提升性能。

讨论中的共识在于大家都对 NPU 的性能和应用表现出浓厚兴趣，并在探讨如何优化其使用。独特的观点如 NPU 灵活性的问题，丰富了讨论内容。

总的来说，这次关于苹果和骁龙 NPU 的讨论，让大家对其有了更深入的了解，也引发了更多关于处理器性能优化和应用场景拓展的思考。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#