原贴链接

嗨!我已经为MLX(苹果硅芯片)创建了新Mistral大模型的q2和q4 MLX量化版本。q2版本已经完成,q4版本正在上传。我使用MLX - LM库从完整的Mistral版本进行转换和量化。在我的128GB内存的m4 max设备上,q2版本每秒能处理7.4个令牌,模型占用约42.3GB内存。这些版本在M系列芯片上应该比GGUF运行得快很多。你可以在LMStudio或任何其他支持MLX的系统中运行它。模型:https://huggingface.co/zachlandes/Mistral - Large - Instruct - 2411 - Q2 - MLX https://huggingface.co/zachlandes/Mistral - Large - Instruct - 2411 - Q4 - MLX

讨论总结

这是一个关于在苹果硅芯片上的Mistral large的MLX量化模型(q2和q4)的Reddit讨论。主题围绕模型的运行、性能表现、内存容量选择等方面展开。参与者提出了各种关于模型使用的问题,如运行库、格式强制选项、模型在不同设备上的运行速度,也有对模型性能对比的好奇以及对内存容量选择的纠结,整体氛围是积极的技术交流氛围。

主要观点

  1. 👍 询问运行mlx相关内容的库以及是否有格式强制选项
    • 支持理由:刚接触mlx的新手在使用中遇到困惑。
    • 反对声音:无。
  2. 🔥 MLX在与Codestral对比时比GGUF快约20%
    • 正方观点:通过测试得到数据对比结果。
    • 反方观点:无。
  3. 💡 所有Mistral large模型在M2 Ultra上运行很慢,但会尝试新的Mistral large量化模型
    • 解释:对之前模型运行速度不满,寄希望于新模型。
  4. 💡 纠结于选择48GB还是64GB内存,考虑到128GB内存虽有性能优势但价格太贵
    • 解释:在权衡内存容量和性价比。
  5. 💡 对q4的每秒处理token数量表示好奇,q4每秒处理token数量为0.58个且速度很慢,但存在适用场景
    • 解释:对新模型q4量化下的性能好奇并得到相关答复。

金句与有趣评论

  1. “😂 我刚拿到我的mac max,刚接触mlx,运行它的库是什么,有没有像强制json之类的格式强制选项呢?”
    • 亮点:典型的新手提问,反映出刚接触新技术的困惑。
  2. “🤔 试试LM studio。”
    • 亮点:针对新手问题给出的一个简单直接的建议。
  3. “👀 我似乎无法通过lm studio找到你的模型,存储库确实在那里。”
    • 亮点:反映出在使用推荐工具时遇到的问题。
  4. “🤔 LMStudio似乎会缓存模型列表,如果你找到想要运行的MLX模型,可以从HF手动下载并移到LMStudio缓存文件夹,它就会识别。”
    • 亮点:为解决模型找不到的问题提供了一种方法。
  5. “👀 对于某些原因,所有Mistral large模型在我的M2 Ultra上运行非常慢。”
    • 亮点:提出了模型运行速度慢的问题。

情感分析

总体情感倾向是积极的。主要分歧点较少,大家更多是在交流技术问题,比如对不同模型性能的比较看法略有不同,但整体氛围和谐。可能的原因是这是一个技术相关的话题,参与者大多是对模型有兴趣或正在使用相关设备的用户,目的是获取信息或分享经验。

趋势与预测

  • 新兴话题:可能会有人按照建议对mlx quants和llama.cpp quants进行性能基准测试。
  • 潜在影响:如果新的Mistral large的MLX量化模型在性能上表现出色,可能会推动更多Mac用户使用,对苹果硅芯片上的模型应用发展有一定推动作用。

详细内容:

《Mac 用户热议新 Mistral 大型 MLX 量化模型》

近日,Reddit 上一则关于为苹果硅(Apple Silicon)创建的新 Mistral 大型 MLX 量化模型的帖子引发了众多 Mac 用户的热烈讨论。该帖子获得了大量的关注,点赞数和评论数众多。原帖作者表示已创建了新 Mistral 大型的 q2 和 q4 MLX 量化模型,q2 已上线,q4 正在上传。还分享了在 m4 max 上使用 q2 模型的运行情况,如每秒 7.4 个令牌、模型占用约 42.3GB 内存等,并提供了模型链接。

讨论的焦点主要集中在以下几个方面: 有人刚入手 Mac Max 且对 MLX 陌生,询问运行所需的库以及是否有格式强制选项。 有人建议尝试 LM studio。 有人表示在 LM studio 中似乎找不到相关模型。 有人指出 LMStudio 似乎会缓存模型列表,若找不到可手动下载并移动到 LMStudio 缓存文件夹。 有人好奇对于较大提示的处理时间,将 MLX 与 ggufs 进行对比。有人称 MLX 比 GGUF 快约 20%。 有人提到 M2 Ultra 运行所有 Mistral 大型模型都很慢,要试试新模型。 有人纠结内存选择,是 64GB 还是 48GB,作者称 64GB 的 Max 芯片内存带宽更高。 有人好奇 q4 的每秒令牌数,作者称非常慢,为 58 个每秒。 有人询问 MLX 量化是否适用于 Ollama。 有人想了解 Mistral 大型 q2 与 llama 3.1 70b q4 相比如何。

在这些讨论中,共识在于大家都对新的量化模型充满期待并积极探索其性能和适用场景。特别有见地的观点如有人将 MLX 与 ggufs 进行对比得出速度差异,这为其他用户提供了有价值的参考。而争议点在于不同用户在模型运行效果和内存选择上存在不同的看法和体验。

总的来说,这次关于新 Mistral 大型 MLX 量化模型的讨论展现了 Mac 用户对于新技术的热情和探索精神,相信随着更多的实践和交流,大家对这一模型会有更深入的了解和更准确的评价。