我正在考虑升级，可以选择12GB或16GB的Pixel 9系列，配备LPDDR5X内存。

人们在手机上能获得多少IT/s，更大的内存容量对大型模型真的有用吗，还是手机上会太慢？

这似乎至少可以在没有服务时提供一个离线访问的信息库

讨论总结

本次讨论主要围绕在手机上运行大型模型的实际可行性展开，涉及了性能、手机配置、兼容性、量化方法等多个方面。参与者分享了各自在不同设备上的运行经验，讨论了RAM容量、处理能力、ARM芯片和SoC设计等技术细节。同时，也有用户提出了在无网络服务时，手机作为离线信息库的潜在用途。整体讨论氛围较为技术性和探索性，涉及的设备包括Pixel 9系列、小米 mi 9t pro等。

主要观点

👍 在手机上运行大型模型的性能问题
- 支持理由：使用7b模型时，性能表现良好；使用quant和llama.cpp编译，并支持高通GPU/NPU，性能可能更高。
- 反对声音：手机的硬件限制了其处理能力，类似于在自行车上安装喷气发动机。
🔥 手机配置对模型运行的影响
- 正方观点：更大的RAM容量对于大型模型是有用的；手机的RAM速度对于运行LLMs是关键。
- 反方观点：手机的硬件限制了其处理能力。
💡 量化方法和优化
- 使用arm优化的Q4_0_4_8量化方法可以优化Llama 3 8B模型；对于Snapdragon 8 Gen 1及以上的设备，建议增加线程数以提高性能。

金句与有趣评论

“😂 I get around 15t/s on snapdragon 8 Gen 3/16gb gddr5x with a 7b model.”
- 亮点：展示了在特定配置下，手机运行模型的实际性能。
“🤔 quant?(and maybe llama.cpp compiled with qualcomm gpu/npu support couldn’t it be higher if not done yet?)”
- 亮点：提出了通过优化编译和GPU/NPU支持来提高性能的可能性。
“👀 I get a decent 21 t/s prompt processing and 5 t/s text generation on ChatterUI with a Snapdragon 7 gen 2 with Llama3 8b.”
- 亮点：分享了在特定设备和模型下，ChatterUI的性能表现。

情感分析

讨论的总体情感倾向较为积极和技术性，参与者对于在手机上运行大型模型的可行性和性能表现持开放态度。主要分歧点在于手机的硬件限制和RAM容量对模型运行的影响。可能的原因是手机硬件的多样性和复杂性，以及不同用户对性能需求的差异。

趋势与预测

新兴话题：Adreno GPU上运行大型语言模型的研究探索。
潜在影响：随着手机硬件的不断升级和优化，未来在手机上运行大型模型的性能和实用性有望进一步提升，可能对移动计算和离线信息访问产生重要影响。

详细内容：

标题：在手机上运行这些模型的可行性探讨

最近，Reddit 上有一个关于在手机上运行模型的热门讨论，吸引了众多用户的关注。原帖中，发帖人考虑升级手机，比如选择 12gb 或 16gb 的 Pixel 9 系列（配备 LPDDR5X RAM），并提出疑问：人们在手机上能获得多少 IT/s 的性能，更大的 RAM 容量对于运行更大的模型是否真的有用，还是说在手机上运行会太慢？此帖获得了大量的关注和众多评论。

讨论的焦点主要集中在不同手机芯片和配置下的性能表现。有用户表示，在骁龙 8 Gen 3/16gb gddr5x 配置下能达到约 15t/s，比如 [Linkpharm2]分享道：“我在这种配置下能获得大约 15t/s 的性能。” [—-Val—-]则称：“我在使用骁龙 7 gen 2 和 Llama3 8b 的情况下，能得到不错的 21 t/s 提示处理和 5 t/s 文本生成。”

同时，也有人探讨了不同操作系统和手机厂商的兼容性问题。[—-Val—-]提到：“IOS 系统性能表现稳定，因为设备差异小；而 Android 则因为各厂商芯片设计不同，兼容性是个大问题，比如 Vulkan 兼容性在 Android 上就很难实现，特定厂商会进行锁定。而且像 MLC 或 executorch 等框架的模型兼容性也不稳定。”

对于如何优化性能，大家也各抒己见。[—-Val—-]表示：“对于骁龙 8 Gen 1 及以上的设备，可以使用更优化的 Q4_0_4_8 量化。要根据设备的核心数量增加线程数。”

在讨论中，也存在一些争议点。比如[Repulsive-Bat4]认为：“更大的 RAM 容量对于更大的模型有用，但在手机硬件条件下，就像给自行车装喷气发动机，关键不在于 RAM，而在于处理能力。” 但[Latter-Elk-5670]则反驳：“手机使用的 ARM 芯片和 MacBooks 相同，所以对于 LLM 来说，RAM 实际上比 Windows x86 的 RAM 更快。”

共识方面，大家普遍认为在手机上运行模型具有一定的探索价值，但也面临诸多挑战。特别有见地的观点如[—-Val—-]对于不同操作系统和芯片的详细分析，丰富了讨论的深度。

总的来说，关于在手机上运行模型的讨论充满了多样性和复杂性，既有实际的经验分享，也有技术层面的深入探讨，为关注这一话题的人们提供了丰富的信息和思考方向。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#