原贴链接

我们很高兴地宣布，Mistral.rs（https://github.com/EricLBuehler/mistral.rs）刚刚增加了对Phi 3.5 MoE的支持！您可以在本地使用CUDA/Metal/CPU SIMD加速运行它。

为了加快本地运行此模型的速度，您可以使用我们的ISQ功能就地量化模型，该功能支持2、3、4、5、6和8位的HQQ和其他量化格式。

为了使在本地运行如此大型模型更加容易，Mistral.rs提供了一个模型拓扑系统（文档）。这使得可以结构化定义哪些层映射到设备或量化级别。

我们还支持Flash Attention和Paged Attention，以提高推理性能。

Mistral.rs中Phi 3.5 MoE的示例和文档：https://github.com/EricLBuehler/mistral.rs/blob/master/docs/PHI3.5MOE.md

您如何运行Mistral.rs？有多种方法，包括：

如果您使用OpenAI API，您可以使用我们提供的OpenAI-superset HTTP服务器和CLI：CLI安装指南，以及许多示例。
使用Python包：PyPi安装指南，以及许多示例。
对于Phi 3.5 MoE和其他文本模型，我们还提供了一个交互式聊天模式：CLI安装指南

./mistralrs_server -i plain -m microsoft/Phi-3.5-MoE-instruct -a phi3.5moe

基于Hugging Face Candle构建！

讨论总结

本次讨论主要围绕Mistral.rs支持Phi 3.5 MoE模型的本地运行展开，涵盖了多GPU支持、模型量化、VRAM需求、硬件兼容性等多个技术细节。用户们对Mistral.rs的新功能表示了浓厚的兴趣，同时也提出了关于硬件需求、内存管理、自动化配置等方面的疑问和建议。讨论中不乏对技术细节的深入探讨，也有对用户使用习惯和硬件兼容性的关注。总体而言，讨论氛围积极，用户们对Mistral.rs的未来发展充满期待。

主要观点

👍 Mistral.rs支持Phi 3.5 MoE模型本地运行
- 支持理由：通过CUDA/Metal/CPU SIMD加速，提高了模型运行效率。
- 反对声音：部分用户对模型拓扑文件的复杂性表示担忧。
🔥 多GPU支持与自动化配置
- 正方观点：用户希望Mistral.rs能提供自动化的多GPU配置方法。
- 反方观点：有用户认为模型拓扑文件提供了灵活性，但设置可能较为复杂。
💡 量化加速与内存管理
- 支持理由：ISQ技术自动量化模型，有助于减少内存使用。
- 反对声音：部分用户在实际操作中遇到了内存不足的问题。
👀 硬件兼容性与用户习惯
- 支持理由：用户对Mistral.rs的更新表示兴趣，但关注AMD GPU的支持情况。
- 反对声音：部分用户缺乏编程知识，习惯于使用LM Studio或KoboldCPP。
🚀 模型性能与资源效率
- 支持理由：Phi 3.5 MoE模型具有低活跃参数和高总参数的特点，适合快速推理。
- 反对声音：运行该模型需要较高的VRAM，对硬件要求较高。

金句与有趣评论

“😂 Does it have multi-gpu support?” - 用户对多GPU支持的关注。
- 亮点：反映了用户对Mistral.rs功能扩展的期待。
“🤔 Mistral.rs uses ISQ. It quantizes it for you :)” - 对ISQ技术的解释。
- 亮点：简洁明了地解释了量化技术的应用。
“👀 I’m wondering what the speed is like on CPU about the same speed as a 7b model?” - 对CPU运行速度的好奇。
- 亮点：体现了用户对不同硬件环境下模型性能的关注。
“😂 Looks interesting, sadly there is no love for AMD GPU users, hope that’s gonna change soon!” - 对AMD GPU支持的期待。
- 亮点：表达了用户对硬件兼容性的关心。
“🤔 I could help if I knew where to look.” - 用户愿意提供帮助的积极态度。
- 亮点：展现了用户社区的互助精神。

情感分析

讨论的总体情感倾向积极，用户们对Mistral.rs的新功能表示了浓厚的兴趣。主要分歧点在于技术细节的复杂性和硬件兼容性问题。部分用户对模型拓扑文件的复杂性表示担忧，同时也有用户对AMD GPU的支持情况表示关注。这些分歧可能源于用户对技术细节的理解程度和硬件配置的差异。

趋势与预测

新兴话题：多GPU支持的自动化配置、量化技术的进一步优化、硬件兼容性的扩展。
潜在影响：随着Mistral.rs功能的不断完善，可能会吸引更多非技术背景的用户尝试本地运行大型语言模型，推动开源社区的发展。

详细内容：

标题：关于在本地运行 Phi 3.5 MoE 模型的热门讨论

在 Reddit 上，一则关于在本地运行 Phi 3.5 MoE 模型的帖子引起了广泛关注，获得了众多点赞和大量评论。帖子介绍了 Mistral.rs 刚获得对 Phi 3.5 MoE 的支持，用户可在本地通过 CUDA/Metal/CPU SIMD 加速运行该模型，并提到了一系列加速和优化模型运行的方法，如量化模型、利用模型拓扑系统等。同时还提供了各种运行方式的相关链接和示例。

这一帖子引发了多方面的热烈讨论。比如，有人询问是否支持多 GPU，有人关心 VRAM 需求，有人想知道如何获取预量化版本，还有人探讨在不同硬件平台（如 AMD GPU、Apple Silicon）上的运行情况等。

有用户提出疑问：“是否有自动的多 GPU 支持？像 llamacpp 只需指定要卸载的层，它就会自动处理，而这里好像没有这么方便。” 但也有人回应称可以通过设置模型拓扑文件来实现层与设备的映射。

对于 VRAM 要求，有人指出 MoE 模型虽然活动参数少但总参数多，所以 VRAM 成本高，需要加载全部总参数。但也有人认为 MoE 对低 VRAM 和大内存的系统很友好。

有用户表示自己在笔记本上尝试 ISQ 时出现内存不足的情况，希望能有批量 ISQ 方法。还有人询问在 CPU 上的运行速度，以及能否在苹果设备上运行等问题。

文章将要探讨的核心问题包括：如何更好地满足不同用户在硬件和技术水平上的需求，以及如何进一步优化模型在各种环境下的运行效率。

总的来说，这次关于在本地运行 Phi 3.5 MoE 模型的讨论展示了用户对于新技术的热情和期待，也反映出在实际应用中面临的诸多挑战和疑问。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#