原贴链接

我正在考虑升级,可以选择12GB或16GB的Pixel 9系列,配备LPDDR5X内存。

人们在手机上能获得多少IT/s,更大的内存容量对大型模型真的有用吗,还是手机上会太慢?

这似乎至少可以在没有服务时提供一个离线访问的信息库

讨论总结

本次讨论主要围绕在手机上运行大型模型的实际可行性展开,涉及了性能、手机配置、兼容性、量化方法等多个方面。参与者分享了各自在不同设备上的运行经验,讨论了RAM容量、处理能力、ARM芯片和SoC设计等技术细节。同时,也有用户提出了在无网络服务时,手机作为离线信息库的潜在用途。整体讨论氛围较为技术性和探索性,涉及的设备包括Pixel 9系列、小米 mi 9t pro等。

主要观点

  1. 👍 在手机上运行大型模型的性能问题
    • 支持理由:使用7b模型时,性能表现良好;使用quant和llama.cpp编译,并支持高通GPU/NPU,性能可能更高。
    • 反对声音:手机的硬件限制了其处理能力,类似于在自行车上安装喷气发动机。
  2. 🔥 手机配置对模型运行的影响
    • 正方观点:更大的RAM容量对于大型模型是有用的;手机的RAM速度对于运行LLMs是关键。
    • 反方观点:手机的硬件限制了其处理能力。
  3. 💡 量化方法和优化
    • 使用arm优化的Q4_0_4_8量化方法可以优化Llama 3 8B模型;对于Snapdragon 8 Gen 1及以上的设备,建议增加线程数以提高性能。

金句与有趣评论

  1. “😂 I get around 15t/s on snapdragon 8 Gen 3/16gb gddr5x with a 7b model.”
    • 亮点:展示了在特定配置下,手机运行模型的实际性能。
  2. “🤔 quant?(and maybe llama.cpp compiled with qualcomm gpu/npu support couldn’t it be higher if not done yet?)”
    • 亮点:提出了通过优化编译和GPU/NPU支持来提高性能的可能性。
  3. “👀 I get a decent 21 t/s prompt processing and 5 t/s text generation on ChatterUI with a Snapdragon 7 gen 2 with Llama3 8b.”
    • 亮点:分享了在特定设备和模型下,ChatterUI的性能表现。

情感分析

讨论的总体情感倾向较为积极和技术性,参与者对于在手机上运行大型模型的可行性和性能表现持开放态度。主要分歧点在于手机的硬件限制和RAM容量对模型运行的影响。可能的原因是手机硬件的多样性和复杂性,以及不同用户对性能需求的差异。

趋势与预测

  • 新兴话题:Adreno GPU上运行大型语言模型的研究探索。
  • 潜在影响:随着手机硬件的不断升级和优化,未来在手机上运行大型模型的性能和实用性有望进一步提升,可能对移动计算和离线信息访问产生重要影响。

详细内容:

标题:在手机上运行这些模型的可行性探讨

最近,Reddit 上有一个关于在手机上运行模型的热门讨论,吸引了众多用户的关注。原帖中,发帖人考虑升级手机,比如选择 12gb 或 16gb 的 Pixel 9 系列(配备 LPDDR5X RAM),并提出疑问:人们在手机上能获得多少 IT/s 的性能,更大的 RAM 容量对于运行更大的模型是否真的有用,还是说在手机上运行会太慢?此帖获得了大量的关注和众多评论。

讨论的焦点主要集中在不同手机芯片和配置下的性能表现。有用户表示,在骁龙 8 Gen 3/16gb gddr5x 配置下能达到约 15t/s,比如 [Linkpharm2]分享道:“我在这种配置下能获得大约 15t/s 的性能。” [—-Val—-]则称:“我在使用骁龙 7 gen 2 和 Llama3 8b 的情况下,能得到不错的 21 t/s 提示处理和 5 t/s 文本生成。”

同时,也有人探讨了不同操作系统和手机厂商的兼容性问题。[—-Val—-]提到:“IOS 系统性能表现稳定,因为设备差异小;而 Android 则因为各厂商芯片设计不同,兼容性是个大问题,比如 Vulkan 兼容性在 Android 上就很难实现,特定厂商会进行锁定。而且像 MLC 或 executorch 等框架的模型兼容性也不稳定。”

对于如何优化性能,大家也各抒己见。[—-Val—-]表示:“对于骁龙 8 Gen 1 及以上的设备,可以使用更优化的 Q4_0_4_8 量化。要根据设备的核心数量增加线程数。”

在讨论中,也存在一些争议点。比如[Repulsive-Bat4]认为:“更大的 RAM 容量对于更大的模型有用,但在手机硬件条件下,就像给自行车装喷气发动机,关键不在于 RAM,而在于处理能力。” 但[Latter-Elk-5670]则反驳:“手机使用的 ARM 芯片和 MacBooks 相同,所以对于 LLM 来说,RAM 实际上比 Windows x86 的 RAM 更快。”

共识方面,大家普遍认为在手机上运行模型具有一定的探索价值,但也面临诸多挑战。特别有见地的观点如[—-Val—-]对于不同操作系统和芯片的详细分析,丰富了讨论的深度。

总的来说,关于在手机上运行模型的讨论充满了多样性和复杂性,既有实际的经验分享,也有技术层面的深入探讨,为关注这一话题的人们提供了丰富的信息和思考方向。