原贴链接

我已经使用LLava:34b、llava-llama3和llava-phi3有一段时间了。它们对于基本的图像识别任务还可以,但对于涉及OCR的实际任务,它们似乎会产生很多幻觉。

关于Florence和Phi-vision有很多炒作,但它们似乎从未实现为GGUF使用,只是在Hugging Face空间中以演示形式存在。

有哪些最先进的开源视觉模型即将发布或已经发布但只是低调进行?

特别寻找被llama.cpp/Ollama支持的GGUFs。

讨论总结

本次讨论主要聚焦于最新的开源视觉模型,特别是那些支持GGUFs并能与llama.cpp或Ollama配合使用的模型。参与者关注这些模型在实际任务中的表现,特别是在OCR方面的效果。讨论中提到了多个模型如LLava:34b、llava-llama3、llava-phi3,以及Florence和Phi-vision的实际应用情况。用户主要关注这些模型在OCR任务中的表现,特别是是否会出现幻觉现象。此外,还有用户分享了一个具体的框架,该框架能够通过视觉模型分析屏幕内容并提供帮助,类似于代码助手。

主要观点

  1. 👍 InternVL2-Llama3-76B 是目前最好的开源视觉语言模型
    • 支持理由:该模型已被列入 Ollama 的待办事项中,显示其潜力和社区关注度。
    • 反对声音:目前尚未有明显的反对声音,但实际应用效果仍需验证。
  2. 🔥 MiniCPM V 2.5 的支持刚刚被添加
    • 正方观点:2.5 版本工作正常,显示了模型的可用性和社区的积极响应。
    • 反方观点:2.6 版本的支持仍在添加中,显示了版本更新带来的挑战。
  3. 💡 直接在 HuggingFace 上运行模型,使用即时量化技术
    • 解释:这一建议旨在简化使用过程,避免依赖特定的支持框架,提供了一种灵活的解决方案。

金句与有趣评论

  1. “😂 chibop1:I’m waiting for InternVL2-Llama3-76B! That’s probably the best opensource vision language model.
    • 亮点:展示了用户对最新开源模型的期待和认可。
  2. “🤔 AbheekG:You don’t need to wait for llama.cpp support and struggle looking for/making GGUFs, just state the name of the model you’d like to use and run it straight off of HuggingFace, with on-the-fly quantization.”
    • 亮点:提供了一种创新的解决方案,简化了模型的使用流程。
  3. “👀 Pedalnomica:Is there any particular reason you need a GGUF/Ollama? I’m in early stages of a project using this setup, and so far it is working well.”
    • 亮点:引发了关于为何需要特定支持框架的讨论,增加了讨论的深度。

情感分析

讨论的总体情感倾向较为积极,用户对新模型的期待和探索热情高涨。主要分歧点在于模型的实际应用效果和兼容性问题,特别是OCR任务中的表现。可能的原因包括技术限制、硬件配置要求以及模型版本的更新迭代。

趋势与预测

  • 新兴话题:开源视觉模型的实际应用和优化,特别是OCR任务中的表现。
  • 潜在影响:对相关领域或社会的潜在影响包括提高图像识别和OCR技术的可用性和普及度,推动技术进步和创新。

详细内容:

标题:探寻支持 Llama.cpp 的前沿本地视觉模型

在 Reddit 上,一篇题为“What new state-of-the-art Local Vision models actually have GGUFs that are supported by Llama.cpp?”的帖子引发了热烈讨论。该帖子获得了众多关注,评论数众多。

原帖作者表示,自己使用过 LLava:34b、llava-llama3 和 llava-phi3 等模型,它们在基础图像识别任务中表现尚可,但在涉及 OCR 的实际任务中常常出现幻觉。同时提到,备受期待的 Florence 和 Phi-vision 似乎未实现 GGUF 应用,仍停留在 Hugging Face 空间的演示阶段,并询问有哪些即将推出或被忽视但出色的开源视觉模型,特别是支持 llama.cpp / Ollama 的 GGUF 模型。

讨论焦点主要集中在各种推荐的模型及使用体验上。有用户推荐 InternVL2-Llama3-76B,并指出其在 Ollama 的待办事项列表中。还有用户提到 MiniCPM V 2.5 刚被添加支持,相关链接为https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5-gguf ,但 2.6 版本的支持仍在添加中。

一位用户表示自己正在搭建一个让视觉模型观察屏幕并提供工作建议的系统,发现 LLava:34b 表现不佳,会出现幻觉。有人推荐了https://github.com/SingularityMan/vector_companion,并提到可以通过特定设置节省资源。

对于如何解决 OCR 问题,有用户建议将 OCR 程序与 LLM 结合,并保证 OCR 转录的准确性。还有用户推荐了 Moondream、QwenVL、BakLLaVA 或 VisionLLM 等模型。

然而,也存在一些争议和疑问。比如,有人对在线接口或 API 的推荐提出质疑,为何在专注本地推理的讨论中推荐这些。还有用户不太熟悉 vLLM,对其需要 Hugging Face 令牌以及是否提供真正兼容 OpenAI 的端点表示困惑。

总之,这场讨论展现了大家对于寻找支持特定框架的优秀本地视觉模型的热情和探索,不同的观点和建议为解决相关问题提供了多样的思路。