原贴链接

Phi-3.5于本周早些时候发布。具体来说，迷你版本拥有38亿参数，非常适合本地部署。它支持多语言并得益于绳索缩放技术，具有128K的长上下文。

MLC-LLM现在支持Phi-3.5在所有后端运行：iOS、Android、WebGPU、CUDA、ROCm、Metal…

除了通用支持外，我们还看到跨平台都有不错的性能表现，这要归功于机器学习编译（参见下面的每秒令牌数演示）。

每个平台的一些资源：

一般MLC-LLM：查看博客文章
带有Nvidia、AMD和Apple GPU的笔记本电脑和服务器：查看Python API文档进行开发
iPhone：尝试App Store中的应用，以及iOS文档进行开发
Android：查看Android文档（内部包含APK以尝试演示）
浏览器（WebLLM）：尝试https://chat.webllm.ai/上的演示，WebLLM博客文章概述，以及WebLLM仓库进行开发和代码

如果你有Chrome浏览器，可以直接在https://chat.webllm.ai/上本地尝试，无需设置，或者在HF空间上尝试，如下所示：

Phi-3.5 4位在https://huggingface.co/spaces/mlc-ai/webllm-phi-3.5-chat上实时运行

Android和iOS的演示：

讨论总结

本次讨论主要围绕Phi-3.5 mini模型的本地部署和性能展开，涉及iOS、Android和Web浏览器等多个平台。用户们关注了模型的兼容性、性能优化以及替代方案，同时也表达了对未来技术发展的兴奋和期待。讨论中涉及的主要话题包括模型的硬件兼容性、GPU加速效果、以及在不同设备上的实际运行体验。

主要观点

👍 Phi-3.5 mini版本是否支持RK3588S/RK3588或Raspberry Pi 5（Cortex-A76）
- 支持理由：用户询问该版本在特定硬件上的支持情况，显示了对硬件兼容性的关注。
- 反对声音：目前尚未有明确的反对声音，但存在对兼容性的疑问。
🔥 MLC LLM是否支持动态加载lora功能
- 正方观点：用户期待MLC LLM能够支持更灵活的部署和性能优化。
- 反方观点：目前尚未有明确的反对声音，但存在对功能扩展的期待。
💡 MLC-LLM的Android应用功能简陋，缺乏自定义模型下载选项
- 解释：用户对MLC-LLM在Android平台上的使用体验表示不满，认为其功能简陋，缺乏自定义模型下载选项，并且在设备上运行速度较慢。

金句与有趣评论

“😂 gofiend：This is awesome! Does it support RK3588S/RK3588 or Raspberry 5 (i.e. Cortex-A76?)”
- 亮点：用户对Phi-3.5 mini版本的硬件兼容性表示兴奋和好奇。
“🤔 tinny66666：我推荐尝试 Layla Lite，如果你是 Android 用户。它是一个更加精致的界面，包括语音聊天。你可以使用任何 gguf 与它。”
- 亮点：用户推荐了一个更适合Android用户的应用，显示了对更好用户体验的追求。
“👀 SnooMachines3070：The iOS App will be updated soon! For now, to try Phi-3.5 on iOS, you can build it from source following the iOS doc https://llm.mlc.ai/docs/deploy/ios.html Sorry for the inconvenience!”
- 亮点：用户提供了从源代码构建Phi-3.5的解决方案，显示了对技术细节的关注和帮助他人的意愿。

情感分析

讨论的总体情感倾向较为积极，用户们对Phi-3.5 mini模型的本地部署和性能表示了浓厚的兴趣和期待。主要分歧点在于模型的兼容性和性能优化，用户们希望能够在不同设备上获得更好的体验。可能的原因包括对技术进步的积极态度和对未来应用的期待。

趋势与预测

新兴话题：MLC LLM是否支持动态加载lora功能可能会引发后续讨论，用户对功能扩展和性能优化有较高期待。
潜在影响：Phi-3.5 mini模型的本地部署和性能优化将对相关领域或社会产生积极影响，特别是在提升用户体验和推动技术进步方面。

详细内容：

标题：Phi-3.5 在多平台的部署及讨论

近日，Reddit 上一则关于“Running Phi-3.5-mini locally on iOS, Android, Web Browser, GPUs”的帖子引发了广泛关注。该帖介绍了Phi-3.5 本周早些时候推出，尤其是其迷你版本具有 3.8B 的参数，适合本地部署，支持多语言，且拥有 128K 的长上下文。MLC-LLM 现已在包括 iOS、Android、WebGPU、CUDA、ROCm、Metal 等所有后端支持 Phi-3.5，并在各平台都有不错的性能。同时，帖子还提供了各平台的相关资源链接。此帖获得了众多点赞和大量评论。

讨论焦点主要集中在以下几个方面：有人询问 Phi-3.5 是否支持 RK3588S/RK3588 或 Raspberry 5 等设备。有人提到 llama.cpp 对 phi 3.5 的支持不够好，存在超过 4k 上下文长度时的不连贯和重复问题，相关链接为：https://github.com/ggerganov/llama.cpp/issues/9127 、https://github.com/ollama/ollama/issues/6449 。有用户推荐在安卓上尝试 Layla Lite，称其界面更精致，包括语音聊天，且能使用任何 gguf。有人指出 Phi 3.5 mini 在 llama.cpp 中尚未能正常工作，当前若想在设备上使用 Phi 3.5 mini，MLC 是可行的办法。有人质疑 MLC 安卓应用的可用性，认为其功能简陋、速度慢，相比 MAID 表现不佳。但也有人表示 Layla Lite 更好，支持从本地存储加载 gguf 文件，兼容性更广，速度更快。还有用户使用 Chrome 尝试 Phi 3.5 后询问模型的保存路径，得到的回复是保存在浏览器的缓存中。

此次讨论中，对于 Phi-3.5 在不同平台和框架下的表现及可用性存在诸多争议和疑问。但也有共识认为 MLC 能在一个框架中支持多种设备和架构是很酷的。

总的来说，Phi-3.5 的推出在多平台部署方面引发了热烈的讨论，用户们期待其能不断完善和优化，为大家带来更好的使用体验。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#