原贴链接

给Mac用户的信息,Qwen2-VL的支持已添加到mlx-vlm。我要去实验了!

讨论总结

本次讨论主要围绕 MLX 支持的 Qwen2-VL 模型在 Mac 上的使用问题展开。讨论内容涵盖了安装过程中的困难、模型性能的比较、文档的不足以及模型在处理图像描述时的具体问题。参与者们分享了各自的经验和解决方案,同时也提出了对 MLX 性能和实用性的质疑。总体而言,讨论氛围较为技术导向,参与者们积极分享信息和解决问题。

主要观点

  1. 👍 MLX 支持的 Qwen2-VL 模型在 Mac 上使用时文档不清晰
    • 支持理由:许多用户在尝试使用时遇到了文档不足的问题,导致操作困难。
    • 反对声音:部分用户通过分享具体操作步骤帮助解决了问题。
  2. 🔥 不同版本的模型在使用上有差异
    • 正方观点:用户们讨论了不同模型版本(如 7B 模型和量化模型)的兼容性问题。
    • 反方观点:一些用户通过调整参数和使用特定命令解决了兼容性问题。
  3. 💡 量化模型(如 4bit 模型)可能导致错误
    • 解释:用户们分享了在使用量化模型时遇到的错误和性能问题,质疑其使用价值。
  4. 🚀 FP16 精度下标准库的性能比量化模型快 40%
    • 解释:用户们通过实际测试发现,FP16 精度下的标准库性能优于量化模型。
  5. 🤔 MLX 的性能表现不如预期
    • 解释:一些用户通过实际测试发现,MLX 的处理速度比 Transformers 慢 40%,对其性能表示失望。

金句与有趣评论

  1. “😂 super cool but it doesn’t show how to use it.
    • 亮点:反映了用户在面对新技术时的常见困惑,文档不足的问题。
  2. “🤔 I already using fp16 with transformers on my M3 mac , what reason to use mlx?
    • 亮点:提出了对 MLX 实用性的质疑,引发了对性能和必要性的讨论。
  3. “👀 Transformers load and give result after ~1 min for 7b model, MLX give result after 1:28 min. So 40 percent worse.
    • 亮点:通过具体数据对比,直观展示了 MLX 和 Transformers 的性能差异。
  4. “💡 It works, kind of. The output results in a multi turn conversation with itself.
    • 亮点:幽默地描述了模型在处理图像描述时的异常行为,引发了对模型问题的讨论。
  5. “🔧 Interesting. Setting the temp to 0 for this particular image fixes the issue.
    • 亮点:分享了通过调整参数解决模型问题的具体方法,展示了技术解决问题的乐趣。

情感分析

讨论的总体情感倾向偏向中性,既有用户对新技术的好奇和尝试,也有对性能和文档不足的失望。主要分歧点在于 MLX 的性能表现和实用性,部分用户对其性能表示失望,而另一部分用户则通过分享解决方案和经验来缓解这些问题。

趋势与预测

  • 新兴话题:MLX 在 Apple GPUs 上的实际性能表现和优化方法可能会成为后续讨论的热点。
  • 潜在影响:MLX 的性能和文档问题可能会影响其在 Mac 用户中的普及度,但通过社区的积极讨论和解决方案分享,有望逐步改善用户体验。

详细内容:

标题:MLX 对 Qwen2-VL 的支持引发 Mac 用户热议

近日,Reddit 上一则关于“MLX 现在支持 Qwen2-VL”的帖子引发了众多 Mac 用户的关注。该帖获得了大量的讨论,点赞数和评论数众多。原帖主要介绍了 MLX 对 Qwen2-VL 的支持,还提供了相关链接(https://x.com/prince_canuma/status/1840064691063705994?s=46&t=BVhfPLwVzzqRJOcJ7VU3tw)。文章将要探讨的核心问题是 MLX 对 Qwen2-VL 支持的效果、使用方法以及其在性能上的表现。

在讨论中,有人分享了自己尝试使用的过程,如“我尝试了$ python -m mlx_vlm.generate --model Qwen/Qwen2-VL-2B-Instruct --image 'mypic.jpg' --prompt 'describe this image',但它只是乱说一通。”还有人提到在终端运行“python3 -m mlx_vlm.generate –model Qwen/Qwen2-VL-2B-Instruct –image ‘image.jpg’ –prompt ‘describe this image’”。

有人指出对于 7b 模型,一开始命令不奏效,更新后运行“python3 -m mlx_vlm.generate –model Qwen/qwen2-VL-7B-Instruct –image ‘image.jpg’ –prompt ‘describe this image’”就可以正常工作,但也有人遇到了诸如“ValueError: Received parameters not in model: language_language_model.model.language_model.lm_head.weight language_language_model.model.language_model.lm_head.scales language_language_model.model.language_model.lm_head.biases.”的错误。

有人介绍了一种可行的安装方法:“克隆仓库:git clone https://github.com/Blaizzy/mlx-vlm.git,然后cd mlx-vlmuv venvsource.venv/bin/activateuv pip install -r requirements.txtpython -m mlx_vlm.generate --model Qwen/Qwen2-VL-2B-Instruct --prompt 'just markdown' --image mypic.png --max-tokens 2048。”

有人质疑使用 MLX 的必要性,比如“我已经在我的 M3 Mac 上使用 FP16 的 transformers 了,有什么理由使用 MLX?”而有人回应称“MLX 适用于苹果 GPU,应该会快 2 - 3 倍。”但也有人表示实际使用中“Transformers 加载并在约 1 分钟后给出 7b 模型的结果,MLX 则在 1 分 28 秒后给出结果,性能差了 40%。”

有人称使用效果“还算可以,输出结果像是在进行多轮自我对话。”还有人表示“将温度设置为 0 对于特定图像能解决问题。”

总体来看,讨论中的共识是大家都在积极探索 MLX 对 Qwen2-VL 的支持,希望能找到更优的使用方法和获得更好的性能。但对于 MLX 的实际效果和优势,大家的看法存在分歧。一些独特的观点如通过特定设置解决问题丰富了讨论,但关于 MLX 在 Mac 上的最终表现和价值,仍有待更多的实践和探讨。