原贴链接

我一直是llama.cpp/GGUF团队的,但遗憾的是这些视觉模型不受支持。如何使用AWQ、BnB或GPTQ来减小规模以便用transformers进行推理呢?

讨论总结

这是一个关于如何在本地运行Qwen2 - VL - 72B或Llama - 3.2 - 90B - Vision模型的技术讨论。原帖主询问相关的量化方法以缩减模型大小进行推理,评论者们给出了多种量化方式的信息,如Qwen 2 VL 72B的官方量化方式及AWQ的优势等。同时也涉及到运行环境相关的讨论,像在Linux下运行以及WSL在Windows下的替代方式。还有关于Ollama的讨论,包括等待它引入相关模型以及对其能否引入的怀疑等,整体氛围是积极的技术交流。

主要观点

  1. 👍 Qwen 2 VL 72B有官方AWQ和GPTQ量化,AWQ是较好选择。
    • 支持理由:FullOf_Bad_Ideas给出这一结论且未被反驳。
    • 反对声音:无
  2. 🔥 运行AWQ需要大量VRAM。
    • 正方观点:CheatCodesOfLife提出这一观点且多人参与讨论资源需求相关话题。
    • 反方观点:无
  3. 💡 安装vllm可能是一种解决方案。
    • 解释:DeltaSqueezer提出使用vLLM运行GPTQ和AWQ版本,segmond表示会安装,有一定的认可度。
  4. 💡 Ollama通常不移植视觉模型。
    • 解释:Sendery - Lutson提出,大家围绕Ollama的模型引入情况展开后续讨论。
  5. 💡 在大多数机器上安装或双启动Linux比较简单。
    • 解释:CosmosisQ提出,其他人未表示反对且在讨论运行环境时有所涉及。

金句与有趣评论

  1. “😂 FullOf_Bad_Ideas: AWQ is your best bet.”
    • 亮点:直接指出AWQ是较好的量化选择,简洁明了地回答了原帖部分问题。
  2. “🤔 CheatCodesOfLife: I generally go with exl2, since we can quantize it with a single GPU, it’s extremely fast now with tensor parallel, and you can run quants like 4.5bpw, 6bpw, etc.”
    • 亮点:详细阐述了exl2量化方式的优势,对大家了解量化方式有帮助。
  3. “👀 Healthy - Nebula - 3603:..and works under linux only”
    • 亮点:明确指出相关操作在Linux下工作的限制条件。

情感分析

总体情感倾向是积极的。主要分歧点较少,可能在对Ollama是否会引入相关模型以及是否信任Ollama博客内容上存在一些不同看法,原因是Ollama相关信息不明确,大家根据自己的经验和期望产生了不同的态度。

趋势与预测

  • 新兴话题:Ollama是否真的会引入相关模型以及它的可信度。
  • 潜在影响:如果Ollama真的引入相关模型,可能会改变本地运行这些大型模型的方式,影响技术爱好者和相关从业者的使用体验。

详细内容:

标题:如何在本地运行 Qwen2-VL-72B 或 Llama-3.2-90B-Vision 的热门讨论

在 Reddit 上,有一个关于如何在本地运行 Qwen2-VL-72B 或 Llama-3.2-90B-Vision 的帖子引发了热烈讨论。该帖子获得了众多关注,评论数众多。主要讨论方向集中在如何通过各种量化方法来减小模型大小以在本地进行推理。

讨论焦点与观点分析: 有人指出 Qwen 2 VL 72B 有官方的 AWQ 和 GPTQ 量化,并提供了运行它的简单脚本链接:https://old.reddit.com/r/LocalLLaMA/comments/1fv892w/simple_gradio_ui_to_run_qwen_2_vl/ 。有人询问对于没有这些量化的模型如何转换,也有人分享自己从未做过 AWQ 量化但提供了相关操作信息的链接:https://github.com/mit-han-lab/llm-awq?tab=readme-ov-file#usage 。 有人提到做 AWQ 需要大量的 VRAM,比如用 4 个 RTX3090 都无法处理 70B 模型。但也有人表示在 4 个 3090 上运行 123B 的 AWQ 没问题,或许需要限制最大上下文之类的。 有人尝试将模型转换为 BnB8bits,虽然过程简单快速,但加载模型时出错。还有人提到用 exl2 量化,因为可以用单个 GPU 完成,速度极快。 有人表示使用 vLLM 运行 GPTQ 和 AWQ 版本。有人提到安装 vLLM,也有人指出 vLLM 仅在 Linux 下运行,或者可以使用 WSL。 有人提到 Ollama 即将支持某些模型,不过也有人认为 Ollama 通常不移植视觉模型,需要等待一段时间。还有人分享了 gemma.cpp 现在支持 PaliGemma 的信息,并提供了 Ollama 相关博客的链接:Llama 3.2 goes small and multimodal · Ollama Blog

总的来说,大家对于如何在本地成功运行这些模型以及不同量化方法的效果和适用性存在着广泛的讨论和探索。