原贴链接

哪一个更适合描述图像?

讨论总结

本次讨论主要围绕LLaVA 1.6 7B和LLaVA Phi3 3.8B两款模型在图像描述方面的表现展开。用户们分享了个人测试结果,讨论了新模型的发布和兼容性问题,以及对频繁更新的不满。同时,也有用户表达了对这两款模型的强烈负面情绪。

主要观点

  1. 👍 LLaVA 1.6 7B在图像描述方面表现稍好
    • 支持理由:moncallikta的个人测试结果显示LLaVA 1.6 7B表现稍好。
    • 反对声音:无明确反对声音。
  2. 🔥 LLaVA Phi3 3.8B的表现有时准确,有时不准确
    • 正方观点:moncallikta指出LLaVA Phi3 3.8B的表现不稳定。
    • 反方观点:无明确反方观点。
  3. 💡 期待Phi 3.5-Vision的发布
    • 解释:moncallikta期待Phi 3.5-Vision的发布,认为它在图像描述方面表现更佳。
  4. 🤔 Phi 3.5-Vision在Ollama中的支持情况存在争议
    • 解释:评论中提到Phi 3.5-Vision在Ollama中的支持情况存在争议,有用户希望支持问题能得到解决。
  5. 😒 对频繁更新的不满
    • 解释:Healthy-Nebula-3603表达了对频繁更新的不满,认为没有时间测试所有新发布的模型。

金句与有趣评论

  1. “😂 In my limited testing, Llava 1.6 7B is a bit better.”
    • 亮点:moncallikta的个人测试结果,简洁明了地表达了LLaVA 1.6 7B的优势。
  2. “🤔 Hmm… so how do we get this to work with ollama?”
    • 亮点:Hoodfu关注新模型与ollama的兼容性问题,提出了实际操作的疑问。
  3. “😭 Why do you have to choose between two grabages”
    • 亮点:Icy_Accident_3847表达了对两款模型性能的极度失望,用强烈的负面情绪吸引注意。

情感分析

讨论的总体情感倾向较为复杂,既有对LLaVA 1.6 7B和LLaVA Phi3 3.8B两款模型性能的肯定,也有对新模型发布和兼容性问题的关注,以及对频繁更新的不满和负面情绪。主要分歧点在于模型的实际表现和用户对新模型发布的期待。

趋势与预测

  • 新兴话题:Phi 3.5-Vision的发布和兼容性问题可能引发后续讨论。
  • 潜在影响:新模型的发布和兼容性问题可能影响用户对LLaVA系列模型的选择和使用。

详细内容:

标题:LLaVA 1.6 7B 与 LLaVA Phi3 3.8B 谁更优?

在 Reddit 上,有一个关于“LLaVA 1.6 7B 与 LLaVA Phi3 3.8B 哪个在描述图像方面更出色”的热门讨论,该帖子获得了众多关注,引发了大量的评论和讨论。

有人表示在其有限的测试中,Llava 1.6 7B 稍好一些。Llava-Phi3 有时表现不稳定,有时生成的图像描述不准确,有时又能生成令人接受的描述。并且指出这个问题取决于要处理的图像,建议加载两个模型通过 Ollama 进行尝试来决定。同时还提到个人正在等待 Phi 3.5-Vision 在 Ollama/llama.cpp 中可用,并提供了相关链接[https://huggingface.co/spaces/MaziyarPanahi/Phi-3.5-Vision],称 Phi 3.5-Vision 对于其测试集中的图像描述比上述两个模型都要好很多。

有人记得曾读到过评论说 phi3.5 vision 不能在 Ollama 中得到支持,可能与底层框架不支持有关,但也表示自己的记忆可能不准确。还有人表示看到了相互矛盾的报告,有一个开放的 GH 问题来获取支持,希望能解决。

也有人指出截至最近,ollama 所使用的 llama.cpp 甚至不支持 phi-3-vision,不过它在最新的 vllm 中是被支持的(仅单张图像)。如果是因为 VRAM 原因等待,使用 Phi-3-vision 时,可以使用来自 hugging face 模型卡的 transformers 推理代码和 bitsnbytes 以 4 或 8 位加载,并且猜测对于 3.5 也是可行的。

有人在寻找 LLaVA 的信息时,发现八月份发布了一个新模型,并提供了相关链接[https://llava-vl.github.io/blog/2024-08-05-llava-onevision/][https://huggingface.co/collections/lmms-lab/llava-onevision-66a259c3526e15166d6bba37]。但有人提出如何使其在 ollama 中工作,该模型已发布近一个月,目前仍无支持,还找到了相关开放问题的链接[https://github.com/ollama/ollama/issues/6255]。

有人直言没有时间每周测试所有新出现的东西。还有人发表了一些不太相关或意义不明的评论。

这场讨论的焦点在于不同模型在描述图像方面的性能差异,以及它们在不同框架中的支持情况。对于模型的选择和使用,大家存在不同的看法和经验。有人认为需要亲自测试来决定,有人则因各种原因无法及时跟进和测试。而关于新模型与现有框架的兼容性,也是争议的一个重要方面。在这个话题中,大家都在努力探索最优的解决方案,以满足图像描述的需求。