原贴链接

无具体内容,仅提供一个链接:https://x.com/LMStudioAI/status/1843715603892449315

讨论总结

这是一个围绕LM Studio推出MLX后端展开的讨论。评论者们从不同角度进行探讨,涉及MLX后端的性能提升、模型转换方法、不同设备运行相关模型的性能比较以及运行速度对比等方面,既有分享经验数据的,也有提出疑问和遇到问题寻求解决办法的,整体氛围比较积极地探索这个新推出的后端相关的各种情况。

主要观点

  1. 👍 速度提升受多种因素影响
    • 支持理由:不同模型、量化大小和上下文窗口使用情况会影响速度提升,有数据对比显示不同设置下的速度差异。
    • 反对声音:无
  2. 🔥 mlx模型选择较少且转换方法受关注
    • 正方观点:mlx模型选择不能满足比较需求,需要简便转换方法把大模型转换为mlx格式。
    • 反方观点:无
  3. 💡 从PC切换到Mac是否值得取决于需求
    • 支持理由:不同设备在运行模型时有各自的优势,如3090运行小模型快,Mac内存足够能运行大模型且便携功耗低。
    • 反对声音:无
  4. 🤔 MLX有节省VRAM的优点
    • 支持理由:在特定设备和模型下对比,MLX使用的VRAM显著少于另一个模型。
    • 反对声音:无
  5. 👀 不同设备在不同运行方式下速度不同
    • 支持理由:有多个设备在运行相同模型时,4 bit MLX速度比Q4_K_M快。
    • 反对声音:有人对速度差异表示困惑。

金句与有趣评论

  1. “😂 Fantastic! MLX is much faster than llama.cpp at least on M3”
    • 亮点:直接表明MLX在M3上比llama.cpp快的性能优势。
  2. “🤔 I would like to compare but the mlx model selection is still very small, right? is there an easy way for me to convert an existing larger 70B+ model to mlx format?”
    • 亮点:指出mlx模型选择少并寻求模型转换方法。
  3. “👀 At 4bit vs 4_k_m, the speed difference hovers around 25% for me; but the biggest improvements are in memory footprint IMO.”
    • 亮点:对比不同量化方式的速度和内存占用情况。
  4. “😎 We can now finetune a model and then just dump the files straight into LMStudio’s model folder and run it all in MLX… so awesome! 🤩”
    • 亮点:体现了在LMStudio中操作模型的便捷性。
  5. “😕 Sudden - Lingonberry - 8: buy an ad”
    • 亮点:简短地表达出对LM Studio可能存在推广手段的质疑态度。

情感分析

总体情感倾向积极,大家主要在探索新的MLX后端的各种性能、优势等。主要分歧点在于对一些速度差异的理解以及部分设备上运行模型出现的问题,如在M1设备上运行MLX模型崩溃等问题。可能的原因是新推出的技术在不同环境下的适配性不同以及大家对技术的理解和应用水平有差异。

趋势与预测

  • 新兴话题:模型微调后的运行以及Phi 3.5 MoE运行无限循环问题的解决可能会引发后续讨论。
  • 潜在影响:对相关的人工智能模型运行和开发社区可能会影响其在不同设备上的优化策略,也可能影响用户对设备和模型选择的决策。

详细内容:

标题:LM Studio 的 MLX 后端引发 Reddit 热议

近日,Reddit 上关于 LM Studio 推出 MLX 后端的话题引起了广泛关注。原帖提供了相关链接https://x.com/LMStudioAI/status/1843715603892449315 ,该帖子获得了众多用户的参与,评论数众多,主要围绕 MLX 后端的性能、速度、内存占用等方面展开了热烈讨论。

讨论的焦点之一是不同模型在 MLX 后端下的速度和内存表现。有人指出,对于 4 比特的模型,在首次加载时内存占用减少了约 30%。比如,有用户分享道:“Llama 3.1 8B GGUF Q8 与 16k 上下文且有闪存关注的情况下,使用 9.93GB 内存,每秒处理 8.63 个令牌,总处理时间 61.24 秒。而 Llama 3.1 8B MLX 8 比特与 16k 上下文的情况,使用 15.21GB 内存,每秒处理 8.77 个令牌,总处理时间 56.38 秒。”但也有人表示在自己的测试中没有看到明显优势,比如有人说:“在我的一些测试中,即使是 3B 大小,在 MLX 引擎下,系统的压力也不同,而且不是有利的方式。”

关于速度提升,有人认为在 4 比特时,速度差异约为 25%,而且 MLX 在长上下文情况下能更好地保持速度。但也有人觉得改进不明显,比如有人说:“看起来是个奇怪的决定。其二进制大小几乎翻了四倍,达到近 1.7GB。”

在内存节省方面,有人发现 MLX 在相同模型下能节省大量内存,例如“Meta - Llama - 3.1 - 70B - Instruct - 8Bit 使用 82GB 内存,而 GGUF Q8_0 则使用 123.15GB 内存。”

对于是否值得切换到 MLX 后端,用户们意见不一。有人认为其速度提升和内存节省是很好的理由,但也有人表示会继续使用之前的版本。同时,不同配置的设备表现也有所不同,有人在 M3 Pro 36GB 设备上发现速度提升不明显,而有人在 M1 Max 32GB 设备上则看到了超过 50%的速度提升。

此外,还存在一些问题,比如部分用户在 M1 设备上运行时模型会崩溃,以及 Phi 3.5 MoE 模型出现的无尽循环等。

总之,LM Studio 的 MLX 后端引发了大家的热烈讨论,用户们从不同角度分享了自己的测试结果和看法,展示了这个新后端的优势和有待改进之处。