我们很高兴地宣布,Mistral.rs(https://github.com/EricLBuehler/mistral.rs)刚刚增加了对Phi 3.5 MoE的支持!您可以在本地使用CUDA/Metal/CPU SIMD加速运行它。
为了加快本地运行此模型的速度,您可以使用我们的ISQ功能就地量化模型,该功能支持2、3、4、5、6和8位的HQQ和其他量化格式。
为了使在本地运行如此大型模型更加容易,Mistral.rs提供了一个模型拓扑系统(文档)。这使得可以结构化定义哪些层映射到设备或量化级别。
我们还支持Flash Attention和Paged Attention,以提高推理性能。
Mistral.rs中Phi 3.5 MoE的示例和文档:https://github.com/EricLBuehler/mistral.rs/blob/master/docs/PHI3.5MOE.md
您如何运行Mistral.rs?有多种方法,包括:
- 如果您使用OpenAI API,您可以使用我们提供的OpenAI-superset HTTP服务器和CLI:CLI安装指南,以及许多示例。
- 使用Python包:PyPi安装指南,以及许多示例。
- 对于Phi 3.5 MoE和其他文本模型,我们还提供了一个交互式聊天模式:CLI安装指南
./mistralrs_server -i plain -m microsoft/Phi-3.5-MoE-instruct -a phi3.5moe
基于Hugging Face Candle构建!
讨论总结
本次讨论主要围绕Mistral.rs支持Phi 3.5 MoE模型的本地运行展开,涵盖了多GPU支持、模型量化、VRAM需求、硬件兼容性等多个技术细节。用户们对Mistral.rs的新功能表示了浓厚的兴趣,同时也提出了关于硬件需求、内存管理、自动化配置等方面的疑问和建议。讨论中不乏对技术细节的深入探讨,也有对用户使用习惯和硬件兼容性的关注。总体而言,讨论氛围积极,用户们对Mistral.rs的未来发展充满期待。
主要观点
- 👍 Mistral.rs支持Phi 3.5 MoE模型本地运行
- 支持理由:通过CUDA/Metal/CPU SIMD加速,提高了模型运行效率。
- 反对声音:部分用户对模型拓扑文件的复杂性表示担忧。
- 🔥 多GPU支持与自动化配置
- 正方观点:用户希望Mistral.rs能提供自动化的多GPU配置方法。
- 反方观点:有用户认为模型拓扑文件提供了灵活性,但设置可能较为复杂。
- 💡 量化加速与内存管理
- 支持理由:ISQ技术自动量化模型,有助于减少内存使用。
- 反对声音:部分用户在实际操作中遇到了内存不足的问题。
- 👀 硬件兼容性与用户习惯
- 支持理由:用户对Mistral.rs的更新表示兴趣,但关注AMD GPU的支持情况。
- 反对声音:部分用户缺乏编程知识,习惯于使用LM Studio或KoboldCPP。
- 🚀 模型性能与资源效率
- 支持理由:Phi 3.5 MoE模型具有低活跃参数和高总参数的特点,适合快速推理。
- 反对声音:运行该模型需要较高的VRAM,对硬件要求较高。
金句与有趣评论
- “😂 Does it have multi-gpu support?” - 用户对多GPU支持的关注。
- 亮点:反映了用户对Mistral.rs功能扩展的期待。
- “🤔 Mistral.rs uses ISQ. It quantizes it for you :)” - 对ISQ技术的解释。
- 亮点:简洁明了地解释了量化技术的应用。
- “👀 I’m wondering what the speed is like on CPU about the same speed as a 7b model?” - 对CPU运行速度的好奇。
- 亮点:体现了用户对不同硬件环境下模型性能的关注。
- “😂 Looks interesting, sadly there is no love for AMD GPU users, hope that’s gonna change soon!” - 对AMD GPU支持的期待。
- 亮点:表达了用户对硬件兼容性的关心。
- “🤔 I could help if I knew where to look.” - 用户愿意提供帮助的积极态度。
- 亮点:展现了用户社区的互助精神。
情感分析
讨论的总体情感倾向积极,用户们对Mistral.rs的新功能表示了浓厚的兴趣。主要分歧点在于技术细节的复杂性和硬件兼容性问题。部分用户对模型拓扑文件的复杂性表示担忧,同时也有用户对AMD GPU的支持情况表示关注。这些分歧可能源于用户对技术细节的理解程度和硬件配置的差异。
趋势与预测
- 新兴话题:多GPU支持的自动化配置、量化技术的进一步优化、硬件兼容性的扩展。
- 潜在影响:随着Mistral.rs功能的不断完善,可能会吸引更多非技术背景的用户尝试本地运行大型语言模型,推动开源社区的发展。
详细内容:
标题:关于在本地运行 Phi 3.5 MoE 模型的热门讨论
在 Reddit 上,一则关于在本地运行 Phi 3.5 MoE 模型的帖子引起了广泛关注,获得了众多点赞和大量评论。帖子介绍了 Mistral.rs 刚获得对 Phi 3.5 MoE 的支持,用户可在本地通过 CUDA/Metal/CPU SIMD 加速运行该模型,并提到了一系列加速和优化模型运行的方法,如量化模型、利用模型拓扑系统等。同时还提供了各种运行方式的相关链接和示例。
这一帖子引发了多方面的热烈讨论。比如,有人询问是否支持多 GPU,有人关心 VRAM 需求,有人想知道如何获取预量化版本,还有人探讨在不同硬件平台(如 AMD GPU、Apple Silicon)上的运行情况等。
有用户提出疑问:“是否有自动的多 GPU 支持?像 llamacpp 只需指定要卸载的层,它就会自动处理,而这里好像没有这么方便。” 但也有人回应称可以通过设置模型拓扑文件来实现层与设备的映射。
对于 VRAM 要求,有人指出 MoE 模型虽然活动参数少但总参数多,所以 VRAM 成本高,需要加载全部总参数。但也有人认为 MoE 对低 VRAM 和大内存的系统很友好。
有用户表示自己在笔记本上尝试 ISQ 时出现内存不足的情况,希望能有批量 ISQ 方法。还有人询问在 CPU 上的运行速度,以及能否在苹果设备上运行等问题。
文章将要探讨的核心问题包括:如何更好地满足不同用户在硬件和技术水平上的需求,以及如何进一步优化模型在各种环境下的运行效率。
总的来说,这次关于在本地运行 Phi 3.5 MoE 模型的讨论展示了用户对于新技术的热情和期待,也反映出在实际应用中面临的诸多挑战和疑问。
感谢您的耐心阅读!来选个表情,或者留个评论吧!