原贴链接

微软刚刚发布了一个Qwen 1.5B DeepSeek蒸馏本地模型,该模型针对骁龙X Plus/Elite笔记本电脑上的Hexagon NPU。终于,我们有了一个正式在NPU上运行以进行提示评估(推理在CPU上运行)的大型语言模型(LLM)。运行步骤如下:在ARM架构的Windows系统下运行VS Code;下载AI工具包扩展;按Ctrl - Shift - P加载命令面板,输入“Load Model Catalog”;向下滚动到DeepSeek(NPU优化)卡片,点击+Add。然后该扩展会下载一堆ONNX文件;要运行推理,按Ctrl - Shift - P加载命令面板,然后输入“Focus on my models view”来加载,然后就可以在聊天界面愉快使用了。任务管理器显示在推理过程中NPU使用率为50%,CPU使用率为25%,所以它按预期工作。更大的Qwen和Llama模型即将推出,所以我们终于在骁龙上有了多个高效的推理堆栈。实际的可执行文件在VS Code扩展目录下的“ai - studio”目录中。有一个ONNX运行时.exe文件以及一堆QnnHtp DLL文件。为其编写一个PowerShell工作流可能会很有趣。

讨论总结

此贴主要讨论微软发布的针对骁龙设备的Qwen 1.5B DeepSeek Distilled本地模型。有人对骁龙产品表示期待并有购买意向,也有人指出骁龙笔记本因Windows - on - ARM而存在问题。关于1.5B模型的用途存在争议,还有人从技术层面分析模型组件及运行方式等,同时也涉及到高通人工智能栈等相关疑问。

主要观点

  1. 👍 一直期待骁龙相关产品,有购买意向
    • 支持理由:之前未购买是因无专注骁龙产品,现在有了便想购买
    • 反对声音:无
  2. 🔥 1.5b r1模型没什么用
    • 正方观点:感觉不能做有用之事
    • 反方观点:特定任务微调后速度快且可靠,用于简单任务、新方法实验等是有用的
  3. 💡 骁龙笔记本因Windows - on - ARM魅力受损
    • 支持理由:存在兼容性等问题
    • 反对声音:无
  4. 🤔 对高通是否有自己的人工智能栈以及新模型与之差异提出疑问
    • 解释:不清楚高通情况及新模型与之的区别
    • 反对声音:无
  5. 😎 模型不同组件在不同设备上有不同运行方式和量化方式
    • 解释:例如嵌入层和语言模型头部在CPU上的运行方式等技术细节
    • 反对声音:无

金句与有趣评论

  1. “😂 I’ve been looking forward to something focusing on the snapdragons.”
    • 亮点:表达出对骁龙产品的期待之情。
  2. “🤔 Didn’t people realize that 1.5b r1 model is just a toy? it can’t do anything useful”
    • 亮点:直接抛出对1.5b模型无用的观点,引发后续讨论。
  3. “👀 Those snapdragon laptops are tantalizing, but man… the whole thing is ruined by Windows - on - ARM.”
    • 亮点:指出Windows - on - ARM对骁龙笔记本的负面影响。
  4. “💡 It’s exciting, though it’s unfortunate - if I remember correctly - that the snapdragon chips don’t support dual channel which really kneecaps the heterogeneous potential for larger llms.”
    • 亮点:提及骁龙芯片对大型LLM异构潜力的限制。
  5. “😎 We perform 4 - bit block quantization on the embedding layer and the language model head and run these memory - access - intensive operations on the CPU.”
    • 亮点:从技术角度阐述模型组件的运行情况。

情感分析

总体情感倾向较为积极和多元。主要分歧点在于1.5b模型是否有用,一方认为只是玩具无实际用途,另一方则指出在特定情况下是有用的。可能的原因是大家对模型的使用场景和期望不同。对骁龙相关产品,有人期待且想购买,也有人指出存在问题,这可能与个人需求和使用体验有关。

趋势与预测

  • 新兴话题:高通QNN AI栈在LLM方面的发展,可能会引发后续更多关于硬件与模型适配性的讨论。
  • 潜在影响:如果骁龙笔记本在软件兼容性等方面得到改善,可能会对笔记本市场产生影响,也可能促使更多针对骁龙设备的模型优化。

详细内容:

标题:微软发布 Qwen 1.5B 模型在骁龙 NPU 上运行,引发 Reddit 热议

近日,微软发布了一个针对骁龙 X Plus/Elite 笔记本电脑上的 Hexagon NPU 的 Qwen 1.5B DeepSeek Distilled 本地模型,在 Reddit 上引发了热烈讨论。该帖子获得了众多关注,评论数众多。讨论主要围绕着该模型的性能、应用场景以及与其他技术的对比等方面展开。

在讨论中,主要观点包括:有人一直期待有针对骁龙的技术,现在准备去购物了;有人认为 Llama.cpp 在骁龙和新的 ARM 芯片上通过使用 CPU 上的矩阵乘法向量指令已经能够快速进行推理,这只是另一个选择;有人觉得不妨等等 Ryzen 395;有人提到 Geekom 将于 3 月/4 月推出一款骁龙 x elite 迷你 PC,如果价格足够便宜就值得拥有;有人认为 1.5b r1 模型只是个玩具,没什么用;但也有人反驳称如果针对特定任务进行微调,它不仅速度快,而且相当可靠,还能用于实验新的训练方法和参数,对于一些简单任务可能也足够好用。

有人分享自己在 craigslist 上看到一些因不了解 Windows on ARM 而低价出售的骁龙笔记本的经历。还有观点认为 Windows-on-ARM 会削弱骁龙笔记本的吸引力,希望能有符合服务器标准的 ARM 笔记本;也有人提到 Asahi Linux 在 MacBook Mx 上的情况。

特别有见地的观点如,有人指出虽然 1.5B 模型较小,但在特定任务中表现出色,且对于一些简单任务,如快速文本/代码完成、推测更大模型、只需提示工程无需微调的任务,可能已经足够。

讨论中的共识在于大家对新模型的出现都表现出了一定的兴趣和关注,同时也在探讨其实际应用的可能性和局限性。

总之,这次关于微软新发布模型的讨论,展现了大家对新技术的期待和思考,也为相关领域的发展提供了多样的视角和思路。