原贴链接

嘿,和你们中的许多人一样,我也迫不及待地想在我的手机上尝试Llama 3.2。所以在看到这个帖子说GGUF可用后,我立即将Llama 3.2 3B (Q4_K_M GGUF)添加到PocketPal的默认模型列表中。

如果你想在手机上尝试,这里是下载链接:

一如既往,你的反馈非常有价值!欢迎分享你的想法或通过GitHub报告任何错误/问题:https://github.com/a-ghorbani/PocketPal-feedback/issues

目前,我只添加了Q4变体(q4_k_m)到默认模型列表中,因为Q8会让我的手机过热。我仍在努力寻找一种方法来优化体验或提前告知用户可能的问题,比如内存不足。但是,如果你的设备可以支持(例如有足够的内存),你可以下载GGUF文件并将其作为本地模型导入。只需确保选择Llama 3.2(llama32)的聊天模板。

image

讨论总结

本次讨论主要集中在如何在iOS和Android设备上运行Llama 3.2 3B模型,以及相关的性能优化和用户体验问题。讨论内容包括模型的量化位数选择、推理速度、界面设计改进、用户反馈的重要性以及技术细节的分享。总体上,讨论氛围积极,用户对模型的运行效果表示满意,同时也提出了一些改进建议和期待。

主要观点

  1. 👍 Llama 3.2 3B模型在手机上的运行速度表现不错

    • 支持理由:用户分享了在不同设备上的运行速度,如iPhone 16 Pro Max上每秒处理17-18个token,S24 Ultra上每秒15-16次。
    • 反对声音:无明显反对声音,但有用户提到速度不快,但足以进行聊天。
  2. 🔥 用户对PocketPal应用的界面设计提出改进建议

    • 正方观点:用户建议改进下载和分组标签的界面设计,更改“other”文件夹的名称,以及加载模型后自动跳转到聊天界面。
    • 反方观点:无明显反对声音,但有用户对现有界面表示满意。
  3. 💡 量化位数对模型性能的影响

    • 解释:用户讨论了4位量化和6位量化的选择,以及量化位数对推理速度的影响,并询问是否有计划添加8位量化模型。
  4. 👍 用户对开发者的快速支持表示感谢

    • 支持理由:用户对开发者的快速响应和更新表示赞赏,如Uncle___Marty提到“11 tokens/sec aint bad! Thanks for the fast support buddy!”。
    • 反对声音:无明显反对声音。
  5. 💡 模型兼容性和内存需求

    • 解释:用户讨论了在内存有限的设备上运行模型的可能性,建议在用户界面中添加每个模型的最低配置要求。

金句与有趣评论

  1. “😂 GoogleOpenLetter:I’d change the ‘other’ folder to ‘Local Models’.”

    • 亮点:简洁直接的建议,反映了用户对界面设计的关注。
  2. “🤔 Uncle___Marty:11 tokens/sec aint bad! Thanks for the fast support buddy!”

    • 亮点:表达了对模型性能的满意和对开发者支持的感谢。
  3. “👀 Additional_Escape_37:Can I ask why 4bits quants and not 6bits?”

    • 亮点:提出了关于量化位数选择的技术问题,引发深入讨论。
  4. “😂 EastSignificance9744:that’s a very unflattering profile picture by the gguf dude lol”

    • 亮点:幽默的评论,反映了用户对图片的个人感受。
  5. “🤔 JawsOfALion:interesting, I only have 2gb ram total in my device, will any of these models work on my phone?”

    • 亮点:提出了关于内存限制的实际问题,引发了对模型兼容性的讨论。

情感分析

讨论的总体情感倾向积极,用户对Llama 3.2 3B模型在手机上的运行效果表示满意,并对开发者的快速支持表示感谢。主要分歧点在于界面设计和模型优化方面,用户提出了一些改进建议,但整体上对新技术的兴趣和支持态度明显。

趋势与预测

  • 新兴话题:量化位数的选择和优化、模型在不同设备上的兼容性和性能表现。
  • 潜在影响:随着更多用户尝试在手机上运行Llama 3.2 3B模型,可能会引发更多关于模型优化和用户体验的讨论,推动开发者进一步改进应用。

详细内容:

标题:在手机上运行 Llama 3.2 3B 引发 Reddit 热议

近日,一则关于在手机上运行 Llama 3.2 3B 的帖子在 Reddit 上引发了众多关注。该帖子介绍了如何将 Llama 3.2 3B (Q4_K_M GGUF)添加到 PocketPal 的默认模型列表中,并提供了 iOS 和 Android 系统的下载链接。截至目前,该帖子已获得了大量的点赞和众多评论。

帖子引发的主要讨论方向包括用户对应用的使用体验反馈、对模型性能的探讨以及对应用功能的建议和期待等。

讨论焦点与观点分析: 有人指出下载和分组的标签不太直观,认为应改为“已下载”和“可用模型”,并以更传统的标签形式呈现。还有人在加载 llama 3.2 的 gguf 时收到了令人困惑的消息。有人称赞 11 个令牌/秒的速度不错,并感谢开发者的快速支持。有人建议添加 1B 模型,开发者回复已在进行中。有人询问为何是 4 位量化而不是 6 位,开发者解释了可能的原因,并提供了相关论文链接。有人反映在安卓系统上无法选择自己下载的模型,开发者表示已在修复并将在下次发布中解决。有人在 iPad M2 上运行良好,请求考虑加入 1B 模型。有人使用 Mistral Nemo 12B 在 Q4K 上运行,得益于手机的 12GB 内存。有人在 iPhone 16 Pro Max 的 A18 Pro 上达到 17 - 18 个令牌/秒。有人好奇安卓设备上应用使用的推理方式是 CPU、GPU 还是 NPU,开发者回复目前在安卓上使用 CPU。有人认为 9 个令牌/秒对于手机和 3B 模型来说令人印象深刻,开发者将速度快归功于 llama.cpp 。有人请求添加更轻的模型,并设置游戏模式加载标志。有人担心自己 2GB 内存的设备能否运行这些模型。有人询问是否有办法在应用内独立调整文本大小。有人希望引入视觉功能、从其他应用使用的简便方式和重新加载响应。有人在 iPhone 16 上测试并报告了令牌速度,通过调整设置有所提升。有人好奇大家使用此应用的用途。有人反馈加载和开始聊天的过程有点笨拙,还询问手机上的小型 LLM 是否会有语音或视频功能。

在这些讨论中,既有对应用的赞扬,也有提出的改进建议,充分展示了用户对在手机上运行 Llama 3.2 3B 的热情和关注。