原贴链接

我刚刚发布了一个新版本的ChatterUI,其中包含过去一个月积累的大量更改:

https://github.com/Vali-98/ChatterUI/releases/tag/v0.7.10


Minitron-Width 4B

运行模型

要在ChatterUI上运行本地模型,首先在设备上下载您希望使用的GGUF模型,然后转到API > 本地 > 导入模型,加载它并开始聊天!对于使用Snapdragon 8 Gen 1及以上的用户,您可以使用优化的Q4_0_4_8量化级别以实现更快的提示处理。

基准测试

在Snapdragon 7 Gen 2上使用Q4_0_4_8的Minitron-Width 4B,进入100个令牌后,我得到了:

  • 每秒53.2个令牌的提示处理

  • 每秒9.6个令牌的文本生成

总的来说,我觉得这些模型的大小和速度对于移动使用来说是最佳的。


上下文切换及其他

自然地,还有更多功能我觉得在我的零星应用更新中被忽视了。我觉得许多基于llama.cpp的Android应用缺乏这些功能,所以我亲自添加了它们!

上下文切换

过去一个月我解决的大功能是适应kobold.cpp的上下文切换系统(在concedo的同意下),允许提示在达到令牌限制后向前移动,修剪系统提示和聊天上下文之间的文本,而无需重新处理整个上下文!这需要我修复许多本地生成的边缘情况,但我认为现在上下文切换已经可以可靠地触发了。

KV缓存保存

我添加了这个实验性功能,每条消息都会将您的KV缓存保存到磁盘。这将允许您在不进行任何提示处理的情况下从上次离开的地方继续聊天!然而,无法确定这对您的存储介质有多糟糕,因为它会重复写入和删除每次几兆字节的KV缓存,所以默认情况下它是禁用的。(更不用说电池消耗了)

其他功能

作为奖励,我还为本地推理添加了XTC采样,但我个人对它的测试结果相当混杂。

添加的API和模型

除此之外,我还添加了一个通用的聊天完成API,Cohere,并将llama.cpp更新到此帖发布时的提交。

未来计划

总的来说,我对应用的当前状态相当满意。也就是说,还有很多屏幕我想重构,以及尝试更多高级的设备上功能,如Lorebooks和RAG。

讨论总结

本次讨论主要集中在如何在Android设备上运行和优化Minitron-4b-Width模型,涉及模型的速度、性能优化、隐私保护以及功能扩展。用户们讨论了不同量化级别的性能差异,特定硬件的支持情况,以及KV缓存保存和上下文切换等功能的实际应用和潜在问题。此外,还有关于ChatterUI应用是否会收集用户数据的讨论,以及对API支持和Android终端环境安装的询问。

主要观点

  1. 👍 隐私保护
    • 支持理由:开发者明确表示ChatterUI应用是完全本地运行的,不收集任何遥测数据或用户信息。
    • 反对声音:无。
  2. 🔥 性能优化
    • 正方观点:用户讨论了不同量化级别(如Q4_0_4_8)在不同硬件上的适用性和性能差异,以及KV缓存保存功能的实验性质及其对存储和电池的影响。
    • 反方观点:无。
  3. 💡 功能扩展
    • 解释:用户询问ChatterUI是否支持API端点以及如何在Android终端环境中安装和运行cui-llama.rn,开发者提供了一些建议和指导。

金句与有趣评论

  1. “😂 LicensedTerrapin:u/—-val—- does it call home at all?”
    • 亮点:用户询问应用是否会收集用户数据,引发了对隐私保护的讨论。
  2. “🤔 Sambojin1:Here’s a bunch more ARM optimized variants of pretty recent LLMs for people to try out.”
    • 亮点:分享了多个针对ARM架构优化的LLMs,引发了对性能优化的讨论。
  3. “👀 skatardude10:Does ChatterUI expose an API endpoint itself?”
    • 亮点:用户询问ChatterUI是否支持API端点,引发了对功能扩展的讨论。

情感分析

讨论的总体情感倾向积极,主要集中在技术细节和功能讨论上。用户们对模型的性能优化和隐私保护表现出高度关注,对开发者的回应和建议也表现出满意和感谢。

趋势与预测

  • 新兴话题:ARM架构优化和大型语言模型在移动设备上的应用可能会引发更多讨论。
  • 潜在影响:随着移动设备性能的提升,本地运行和优化大型语言模型将成为一个重要的发展方向,可能对移动应用开发和用户体验产生深远影响。

详细内容:

标题:关于在 Android 上运行 Minitron-4b-Width 的热门讨论

最近,Reddit 上出现了一个关于在 Android 上运行 Minitron-4b-Width 模型的热门帖子。该帖子发布了 ChatterUI 的新版本,介绍了许多相关的变化和特点,获得了众多关注,评论数众多。

帖子主要内容包括如何在设备上运行本地模型、模型的性能基准、新添加的功能如上下文转移和 KV 缓存保存,以及未来的计划等。还提供了版本的下载链接:https://github.com/Vali-98/ChatterUI/releases/tag/v0.7.10 。

讨论焦点主要集中在模型的运行优化、不同设备的兼容性和性能表现等方面。有人询问该应用是否会收集用户数据,作者表示完全本地化,不会收集任何用户信息。还有人分享了不同设备上模型量化格式的兼容性问题,比如在某些设备上加载 4_4 格式会崩溃或输出异常。有人提出自己设备性能不佳的问题,作者建议调整量化格式和线程数。有人询问 ChatterUI 是否暴露 API 端点以及相关的安装和运行教程,作者也进行了回应。

在讨论中,有用户表示:“我使用了 Q4048,但不知道设置什么参数。”还有用户提到:“我在三星 S23 Ultra 上用 Snapdragon 8 gen2 芯片,速度只有每秒 7 个令牌。”

对于不同的观点和问题,大家展开了热烈的讨论。普遍认为优化模型在不同设备上的性能是关键,同时也期待作者能够继续完善应用,提供更多实用的功能。

总的来说,这次关于在 Android 上运行 Minitron-4b-Width 的讨论,为相关开发者和用户提供了有价值的信息和思路。