刚刚尝试了在X（推特）上发现的Anemll（https://github.com/Anemll/Anemll），它能让你直接在神经引擎上运行模型，与在GPU上运行的lm studio或ollama相比功耗低得多。

llama - 3.2 - 1b通过anemll和通过lm studio运行的一些结果：

功耗从GPU上的8W降低到ane（神经引擎）上的1.7W。
每秒处理事务数（Tps）仅略有下降，从56t/s降至45t/s（但不知道anemll的量化情况，我运行的lm studio的是Q8）。 Anemll模型的上下文只有512，不确定是神经引擎的限制还是他们尚未转换更大的模型。如果你想尝试，可以前往他们的[huggingface](https://huggingface.co/collections/anemll/anemll - 011 - 67aa41b5ba1bcdd966a28fd0)并按照那里的说明操作，Anemll的git仓库设置更多，因为你必须转换自己的模型。第一张图片是lm studio，第二张是anemll（查看右下角的功耗），第三张来自X。
[通过anemll运行](https://preview.redd.it/fqoni8uec6je1.png?width = 2286&format = png&auto = webp&s = a14f2a9705151d9403b3372d0273c16b94272e0c) [效率比较（来自X）](https://preview.redd.it/0rs2603jc6je1.png?width = 3629&format = png&auto = webp&s = bb492408d21f4b064bcc8dec0d3945a736ffb4dc) 我认为这非常酷，我希望这个项目能得到更多支持，这样我们就能在上面运行更多、更大的模型！并且希望LM studio团队能很快支持这种新的模型运行方式

讨论总结

原帖介绍了能在Mac神经引擎上运行模型的Anemll项目，并给出了与其他运行方式的对比结果。评论者们从多方面进行讨论，有人提供技术补充如Anemll的量化信息，有人对在这一引擎上运行模型的意义和潜力发表看法，还有人提出疑惑如能否用于Apple Vision Pro以及Metal与神经引擎的关系等，整体氛围较为积极且对相关技术发展充满期待。

主要观点

👍 在Mac神经引擎运行模型可用于终端补全且对桌面无影响、电池使用可行
- 支持理由：如SporksInjected指出可以在内存中加载小模型用于终端补全，在桌面和电池使用场景都没问题。
- 反对声音：无。
🔥 在苹果和高通NPUs上的成功会促使更多资源投入到优化对LLMs的支持上
- 正方观点：SkyFeistyLlama8认为会吸引芯片制造商和操作系统开发者关注，从而推动发展。
- 反方观点：无。
💡 Anemll项目看起来很新且有前景
- 解释：评论者表示之前未见过在神经引擎上运行模型（如果之前可行的话），并看好项目前景。
💡 在AI领域功率消耗不是最应担忧的，期望苹果提供带宽更优芯片
- 解释：nderstand2grow从自身对人工智能关注点出发，认为相比功率消耗，带宽更值得关注。
💡 认为M4 Ultra及以后产品将针对LLMs优化
- 解释：基于现在可以在苹果神经引擎上运行模型，推测未来产品会有针对LLMs的优化。

金句与有趣评论

“😂 SporksInjected: This is awesome. This means you can effectively leave a small model loaded in ram for terminal completions and its virtually transparent on desktop and completely usable on battery.”
- 亮点：生动地阐述了在Mac神经引擎运行模型对于终端补全在不同场景下的可行性。
“🤔 另一个7B 4bit基准，其优化程度较低（带宽无法反映高级机器的速度）。”
- 亮点：对7B 4bit基准测试的优化情况给出见解。
“👀 从X 关于anemll llama的量化：“It’s in meta.yalm file，FFN and refill are 6 bit LUT””
- 亮点：提供了Anemll llama量化方面的技术信息。
“🤔 我一直想知道为什么不是这样，考虑到苹果在宣传和营销他们的神经引擎等方面领先其他人很多年。”
- 亮点：对之前不能在苹果神经引擎运行模型表示疑惑并结合苹果宣传情况。
“😂 忽略我；我很愚蠢。”
- 亮点：体现评论者对自己之前言论的反悔态度，较为有趣。

情感分析

总体情感倾向是积极的。主要分歧点在于对功率消耗降低这一成果的重视程度，部分人认为这是在Mac神经引擎上运行模型的优势，而有人认为在AI领域功率消耗不是最应担忧的。可能的原因是不同人对人工智能发展中不同性能指标的关注度不同。

趋势与预测

新兴话题：M4 Ultra及后续产品对LLMs的优化，以及在Apple Vision Pro上是否能实现模型运行。
潜在影响：如果更多在苹果和高通NPUs上运行LLMs取得成功，可能促使芯片制造商和操作系统开发者加大投入，推动相关技术发展，改变人们使用本地模型的方式等。

详细内容：

标题：Mac 现可在神经引擎上运行模型，引发热烈讨论

在 Reddit 上，一则关于“Mac 现可在神经引擎上运行模型”的帖子引起了广泛关注。该帖子介绍了Anemll，称其能让用户在神经引擎上直接运行模型，与在 GPU 上运行的 lm studio 或 ollama 相比，能耗大幅降低。比如，运行 llama-3.2-1b 时，功率从 GPU 上的 8W 降至 1.7W，每秒处理事务数（TPS）虽略有下降，从 56 次/秒降至 45 次/秒。帖子还提到 Anemll 模型的上下文限制为 512，不确定是神经引擎的限制还是尚未转换更大的模型。若想尝试，可前往其huggingface并按照说明操作。

此贴获得了众多点赞和大量评论，引发的主要讨论方向包括对模型性能、未来发展以及不同硬件设备支持的探讨。

讨论焦点与观点分析：有人指出，若能实现仅整数计算范式，对 NPUs 来说将大幅提升处理能力。有人认为当前世代的 NPUs 并非专为 LLMs 设计，未来世代会有所改进。还有人觉得这个技术很棒，意味着可以在内存中加载小模型用于终端完成任务，在桌面上几乎无影响，在电池供电下也完全可用。

有人表示，如果典型的开发程序如 fish、vscode 等能采用简便方式与 LLMs 通过 NPU 交互，会每天使用。也有人提到希望未来 12 个月左右能在 NPU 上运行本地 7B 不太量化的模型，具有与现今大型 sota 编码器模型相同的智商和上下文大小。

有人认为 ANE 在性能上领先于 Qualcomm NPU，但开发难度较大，存在诸多限制。对于该技术是否适用于 Apple Vision Pro 存在疑问。

有人觉得能耗并非 AI 的首要担忧，更希望苹果提供带宽更高的芯片。

特别有见地的观点如，更多在 Apple 和 Qualcomm NPUs 上的成功意味着芯片制造商和操作系统制造商将更关注让 LLMs 在这些 NPUs 上可用。

讨论中的共识在于，大家普遍认为这一技术具有潜力，尽管存在一些限制和问题，但有望成为未来运行本地 llms 的重要方式。

这一讨论展现了大家对新技术的期待和对其发展方向的思考。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#