原贴链接

哪一个更适合描述图像？

讨论总结

本次讨论主要围绕LLaVA 1.6 7B和LLaVA Phi3 3.8B两款模型在图像描述方面的表现展开。用户们分享了个人测试结果，讨论了新模型的发布和兼容性问题，以及对频繁更新的不满。同时，也有用户表达了对这两款模型的强烈负面情绪。

主要观点

👍 LLaVA 1.6 7B在图像描述方面表现稍好
- 支持理由：moncallikta的个人测试结果显示LLaVA 1.6 7B表现稍好。
- 反对声音：无明确反对声音。
🔥 LLaVA Phi3 3.8B的表现有时准确，有时不准确
- 正方观点：moncallikta指出LLaVA Phi3 3.8B的表现不稳定。
- 反方观点：无明确反方观点。
💡 期待Phi 3.5-Vision的发布
- 解释：moncallikta期待Phi 3.5-Vision的发布，认为它在图像描述方面表现更佳。
🤔 Phi 3.5-Vision在Ollama中的支持情况存在争议
- 解释：评论中提到Phi 3.5-Vision在Ollama中的支持情况存在争议，有用户希望支持问题能得到解决。
😒 对频繁更新的不满
- 解释：Healthy-Nebula-3603表达了对频繁更新的不满，认为没有时间测试所有新发布的模型。

金句与有趣评论

“😂 In my limited testing, Llava 1.6 7B is a bit better.”
- 亮点：moncallikta的个人测试结果，简洁明了地表达了LLaVA 1.6 7B的优势。
“🤔 Hmm… so how do we get this to work with ollama?”
- 亮点：Hoodfu关注新模型与ollama的兼容性问题，提出了实际操作的疑问。
“😭 Why do you have to choose between two grabages”
- 亮点：Icy_Accident_3847表达了对两款模型性能的极度失望，用强烈的负面情绪吸引注意。

情感分析

讨论的总体情感倾向较为复杂，既有对LLaVA 1.6 7B和LLaVA Phi3 3.8B两款模型性能的肯定，也有对新模型发布和兼容性问题的关注，以及对频繁更新的不满和负面情绪。主要分歧点在于模型的实际表现和用户对新模型发布的期待。

趋势与预测

新兴话题：Phi 3.5-Vision的发布和兼容性问题可能引发后续讨论。
潜在影响：新模型的发布和兼容性问题可能影响用户对LLaVA系列模型的选择和使用。

详细内容：

标题：LLaVA 1.6 7B 与 LLaVA Phi3 3.8B 谁更优？

在 Reddit 上，有一个关于“LLaVA 1.6 7B 与 LLaVA Phi3 3.8B 哪个在描述图像方面更出色”的热门讨论，该帖子获得了众多关注，引发了大量的评论和讨论。

有人表示在其有限的测试中，Llava 1.6 7B 稍好一些。Llava-Phi3 有时表现不稳定，有时生成的图像描述不准确，有时又能生成令人接受的描述。并且指出这个问题取决于要处理的图像，建议加载两个模型通过 Ollama 进行尝试来决定。同时还提到个人正在等待 Phi 3.5-Vision 在 Ollama/llama.cpp 中可用，并提供了相关链接[https://huggingface.co/spaces/MaziyarPanahi/Phi-3.5-Vision]，称 Phi 3.5-Vision 对于其测试集中的图像描述比上述两个模型都要好很多。

有人记得曾读到过评论说 phi3.5 vision 不能在 Ollama 中得到支持，可能与底层框架不支持有关，但也表示自己的记忆可能不准确。还有人表示看到了相互矛盾的报告，有一个开放的 GH 问题来获取支持，希望能解决。

也有人指出截至最近，ollama 所使用的 llama.cpp 甚至不支持 phi-3-vision，不过它在最新的 vllm 中是被支持的（仅单张图像）。如果是因为 VRAM 原因等待，使用 Phi-3-vision 时，可以使用来自 hugging face 模型卡的 transformers 推理代码和 bitsnbytes 以 4 或 8 位加载，并且猜测对于 3.5 也是可行的。

有人在寻找 LLaVA 的信息时，发现八月份发布了一个新模型，并提供了相关链接[https://llava-vl.github.io/blog/2024-08-05-llava-onevision/][https://huggingface.co/collections/lmms-lab/llava-onevision-66a259c3526e15166d6bba37]。但有人提出如何使其在 ollama 中工作，该模型已发布近一个月，目前仍无支持，还找到了相关开放问题的链接[https://github.com/ollama/ollama/issues/6255]。

有人直言没有时间每周测试所有新出现的东西。还有人发表了一些不太相关或意义不明的评论。

这场讨论的焦点在于不同模型在描述图像方面的性能差异，以及它们在不同框架中的支持情况。对于模型的选择和使用，大家存在不同的看法和经验。有人认为需要亲自测试来决定，有人则因各种原因无法及时跟进和测试。而关于新模型与现有框架的兼容性，也是争议的一个重要方面。在这个话题中，大家都在努力探索最优的解决方案，以满足图像描述的需求。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#