原贴链接

嗨,我喜欢ollama并且已经使用了一段时间。当llama3.2 - vision发布的时候我超级兴奋,但即使没有任何图像,我每秒也只能得到4个标记。相比之下,使用llama3.1时我每秒能得到70个标记。据我理解,在没有图像进行推理时,视觉模型不应该需要额外的30亿参数,因为其他80亿参数和3.1是一样的,但即使没有图像它仍然非常慢。我有一个8GB显存的RTX 3060ti,ollama自己说这是在GPU上运行3.2的最低配置,但当我用8GB运行它时,它必须将一部分卸载到CPU(https://ollama.com/blog/llama3.2 - vision)。是我做错了什么吗?其他人有遇到过这种情况吗?有人知道ollama上能完全在8GB上运行的低量化模型吗?

讨论总结

原帖作者发现ollama中的llama3.2 - vision在无图像时速度比llama3.1慢很多,自己使用8GB显存的RTX 3060ti运行时仍需CPU辅助,怀疑自己操作有误并询问是否有低量化模型可完全在8GB显存上运行。评论者们从不同角度进行回应,如指出Vision 11b显存需求为13GB,RTX 3060ti显存无法满足,ollama为llama 3.2 vision的自定义推理引擎显存分配特殊,还探讨了运行模型的实际VRAM需求、图像预处理机制等对运行速度的影响等,整体氛围较为理性探讨技术问题。

主要观点

  1. 👍 Vision 11b的显存需求为13GB,RTX 3060ti的8GB显存无法满足,导致部分由CPU推理。
    • 支持理由:Vision 11b本身显存需求大,提问者显卡显存不足。
    • 反对声音:无
  2. 🔥 ollama为llama 3.2 vision的自定义推理引擎显存分配方式特殊。
    • 正方观点:ollama自己制作的自定义推理引擎,在显存分配上有特殊之处。
    • 反方观点:无
  3. 💡 运行模型所需的VRAM实际比声称的要多,上下文因素会增加对VRAM的需求。
    • 解释:在实际运行中由于上下文等因素会额外占用显存。
  4. 🤔 llama vision可能缺乏稳健的图像预处理机制。
    • 解释:以Qwen2 - VL为例说明图像预处理的重要性,推测llama vision在这方面可能存在不足。
  5. 😎 可从Hugging Face获取gguf模型到ollama。
    • 解释:为解决模型获取问题提供一种途径。

金句与有趣评论

  1. “😂 Vision 11b needs 13 GB of vram. Your RTX can’t allocate it and therefore half of your model is inferenced by cpu.”
    • 亮点:直接指出提问者显卡显存不足导致模型部分由CPU推理的原因。
  2. “🤔 当他们说你需要xx gb的vram来运行一个模型,你实际上需要更多用于上下文。”
    • 亮点:点明运行模型时显存需求受上下文因素影响。
  3. “👀 其可能是llama vision没有强大的模型内图像预处理机制。”
    • 亮点:对llama vision运行慢提出一种可能的原因推测。
  4. “😉 预处理对视觉模型来说是一件大事,它们几乎总有一个模型表现最佳的输入分辨率。”
    • 亮点:强调图像预处理对视觉模型的重要性。
  5. “💡 我不清楚llama - vision架构是如何运作的,但不是通常存在少量以f16加载的视觉语言模型投影层吗?那可能会占用额外的内存+上下文。”
    • 亮点:在不了解架构的情况下做出合理推测。

情感分析

总体情感倾向为中性,主要是针对技术问题进行理性探讨。分歧点较少,主要分歧可能在于对llama3.2 - vision运行慢的具体原因分析上,不同的人从显存、推理引擎、图像预处理等不同角度进行推测和解释,这是因为对技术问题的理解和经验不同。

趋势与预测

  • 新兴话题:可能会进一步探讨如何优化ollama中llama3.2 - vision的性能,如改进图像预处理机制等。
  • 潜在影响:如果能找到提高ollama中llama3.2 - vision性能的方法,可能会提高该模型在相关领域的使用效率,也可能影响其他类似视觉语言模型的优化方向。

详细内容:

标题:关于 Ollama Llama3.2-Vision 运行速度慢的热门讨论

近日,在 Reddit 上有一个关于 Ollama Llama3.2-Vision 运行速度的帖子引起了广泛关注。该帖主称自己一直是 Ollama 的用户,对新推出的 Llama3.2-Vision 充满期待,但在没有使用图像的情况下,运行速度仅为 4 个 token/s,而使用 Llama3.1 时能达到 70 个 token/s。帖主拥有 RTX 3060ti 显卡,8GB VRAM,这符合 Ollama 官方所说的运行 3.2 版本的最低要求,然而运行时仍需将部分任务转移到 CPU 上,相关链接:https://ollama.com/blog/llama3.2-vision。这一帖子引发了众多用户的热烈讨论,核心问题在于为何该模型在无图像情况下仍运行缓慢。

在讨论中,有人指出 Vision 11b 需要 13GB 的 VRAM,帖主的 RTX 显卡无法完全分配,因此部分由 CPU 进行推断。还有人认为这可能与 Ollama 为运行 Llama 3.2 Vision 定制的推理引擎有关,其 VRAM 分配方式与其他模型不同。也有人提到,在他们提供的链接中,官方称只需 8GB 就行,也许是因为处理图像带来的额外上下文令牌。

有人假设如果来自欧盟以外地区,可以从hugging face 直接获取模型到 Ollama。还有人认为现有的 Llama 视觉的 GGUF 模型可能无法工作。有人确认在欧盟内部也能将 HF 模型导入 Ollama。有人提到当说运行一个模型需要 xx GB 的 VRAM 时,实际上还需要更多来处理上下文,并提供了计算工具的链接:https://huggingface.co/spaces/NyxKrage/LLM-Model-VRAM-Calculator

有用户认为 8GB 只是最低要求,实际需要更多。有人提出不了解 Llama 视觉架构的工作原理,可能存在一些占用额外内存的因素。也有人指出 Llama 视觉可能在模型中的图像预处理机制不够强大。

讨论中的共识是大家都对 Ollama Llama3.2-Vision 的运行问题感到困惑,并希望能有更好的解决方案或优化措施。特别有见地的观点如认为 Ollama 为旧款 GPU 保持新功能兼容值得感激,以及指出模型的定制推理引擎可能还未优化完善。

总的来说,这次关于 Ollama Llama3.2-Vision 运行速度的讨论,展现了用户对于新技术的关注和期待,也反映出目前在实际应用中所面临的挑战。希望未来能有更多的优化和改进,以满足用户的需求。