Phi-3.5于本周早些时候发布。具体来说,迷你版本拥有38亿参数,非常适合本地部署。它支持多语言并得益于绳索缩放技术,具有128K的长上下文。
MLC-LLM现在支持Phi-3.5在所有后端运行:iOS、Android、WebGPU、CUDA、ROCm、Metal…
除了通用支持外,我们还看到跨平台都有不错的性能表现,这要归功于机器学习编译(参见下面的每秒令牌数演示)。
每个平台的一些资源:
- 一般MLC-LLM:查看博客文章
- 带有Nvidia、AMD和Apple GPU的笔记本电脑和服务器:查看Python API文档进行开发
- iPhone:尝试App Store中的应用,以及iOS文档进行开发
- Android:查看Android文档(内部包含APK以尝试演示)
- 浏览器(WebLLM):尝试https://chat.webllm.ai/上的演示,WebLLM博客文章概述,以及WebLLM仓库进行开发和代码
如果你有Chrome浏览器,可以直接在https://chat.webllm.ai/上本地尝试,无需设置,或者在HF空间上尝试,如下所示:
Phi-3.5 4位在https://huggingface.co/spaces/mlc-ai/webllm-phi-3.5-chat上实时运行
Android和iOS的演示:
讨论总结
本次讨论主要围绕Phi-3.5 mini模型的本地部署和性能展开,涉及iOS、Android和Web浏览器等多个平台。用户们关注了模型的兼容性、性能优化以及替代方案,同时也表达了对未来技术发展的兴奋和期待。讨论中涉及的主要话题包括模型的硬件兼容性、GPU加速效果、以及在不同设备上的实际运行体验。
主要观点
- 👍 Phi-3.5 mini版本是否支持RK3588S/RK3588或Raspberry Pi 5(Cortex-A76)
- 支持理由:用户询问该版本在特定硬件上的支持情况,显示了对硬件兼容性的关注。
- 反对声音:目前尚未有明确的反对声音,但存在对兼容性的疑问。
- 🔥 MLC LLM是否支持动态加载lora功能
- 正方观点:用户期待MLC LLM能够支持更灵活的部署和性能优化。
- 反方观点:目前尚未有明确的反对声音,但存在对功能扩展的期待。
- 💡 MLC-LLM的Android应用功能简陋,缺乏自定义模型下载选项
- 解释:用户对MLC-LLM在Android平台上的使用体验表示不满,认为其功能简陋,缺乏自定义模型下载选项,并且在设备上运行速度较慢。
金句与有趣评论
- “😂 gofiend:This is awesome! Does it support RK3588S/RK3588 or Raspberry 5 (i.e. Cortex-A76?)”
- 亮点:用户对Phi-3.5 mini版本的硬件兼容性表示兴奋和好奇。
- “🤔 tinny66666:我推荐尝试 Layla Lite,如果你是 Android 用户。它是一个更加精致的界面,包括语音聊天。你可以使用任何 gguf 与它。”
- 亮点:用户推荐了一个更适合Android用户的应用,显示了对更好用户体验的追求。
- “👀 SnooMachines3070:The iOS App will be updated soon! For now, to try Phi-3.5 on iOS, you can build it from source following the iOS doc https://llm.mlc.ai/docs/deploy/ios.html Sorry for the inconvenience!”
- 亮点:用户提供了从源代码构建Phi-3.5的解决方案,显示了对技术细节的关注和帮助他人的意愿。
情感分析
讨论的总体情感倾向较为积极,用户们对Phi-3.5 mini模型的本地部署和性能表示了浓厚的兴趣和期待。主要分歧点在于模型的兼容性和性能优化,用户们希望能够在不同设备上获得更好的体验。可能的原因包括对技术进步的积极态度和对未来应用的期待。
趋势与预测
- 新兴话题:MLC LLM是否支持动态加载lora功能可能会引发后续讨论,用户对功能扩展和性能优化有较高期待。
- 潜在影响:Phi-3.5 mini模型的本地部署和性能优化将对相关领域或社会产生积极影响,特别是在提升用户体验和推动技术进步方面。
详细内容:
标题:Phi-3.5 在多平台的部署及讨论
近日,Reddit 上一则关于“Running Phi-3.5-mini locally on iOS, Android, Web Browser, GPUs”的帖子引发了广泛关注。该帖介绍了Phi-3.5 本周早些时候推出,尤其是其迷你版本具有 3.8B 的参数,适合本地部署,支持多语言,且拥有 128K 的长上下文。MLC-LLM 现已在包括 iOS、Android、WebGPU、CUDA、ROCm、Metal 等所有后端支持 Phi-3.5,并在各平台都有不错的性能。同时,帖子还提供了各平台的相关资源链接。此帖获得了众多点赞和大量评论。
讨论焦点主要集中在以下几个方面: 有人询问 Phi-3.5 是否支持 RK3588S/RK3588 或 Raspberry 5 等设备。有人提到 llama.cpp 对 phi 3.5 的支持不够好,存在超过 4k 上下文长度时的不连贯和重复问题,相关链接为:https://github.com/ggerganov/llama.cpp/issues/9127 、https://github.com/ollama/ollama/issues/6449 。 有用户推荐在安卓上尝试 Layla Lite,称其界面更精致,包括语音聊天,且能使用任何 gguf。有人指出 Phi 3.5 mini 在 llama.cpp 中尚未能正常工作,当前若想在设备上使用 Phi 3.5 mini,MLC 是可行的办法。 有人质疑 MLC 安卓应用的可用性,认为其功能简陋、速度慢,相比 MAID 表现不佳。但也有人表示 Layla Lite 更好,支持从本地存储加载 gguf 文件,兼容性更广,速度更快。 还有用户使用 Chrome 尝试 Phi 3.5 后询问模型的保存路径,得到的回复是保存在浏览器的缓存中。
此次讨论中,对于 Phi-3.5 在不同平台和框架下的表现及可用性存在诸多争议和疑问。但也有共识认为 MLC 能在一个框架中支持多种设备和架构是很酷的。
总的来说,Phi-3.5 的推出在多平台部署方面引发了热烈的讨论,用户们期待其能不断完善和优化,为大家带来更好的使用体验。
感谢您的耐心阅读!来选个表情,或者留个评论吧!