目前最佳的多模态大型语言模型（最高可达100亿参数）用于视觉问答？

我想做一个小项目，对一张图片进行分类，判断它是否包含某个国家的国旗，并说出是哪个国家。图片可能根本不包含任何国旗。

我认为一个视觉问答模型应该足够强大，无需任何微调就能完成这项任务。然而，我已经脱离计算机视觉领域几年了（我上次训练的是几年前在HF的Vision Transformer），但随着LLM的兴起，我相信这可以开箱即用。

有哪些好的资源（也许有一个多模态LLM的竞技场或排名）可以让我了解多模态LLM的最新趋势？

讨论总结

本次讨论主要聚焦于如何选择和使用多模态大语言模型（LLM）进行图像分类，特别是识别图像中的国家旗帜。参与者们分享了多个模型推荐，如InternVL和florenece-2-large-ft，并提供了相关的排行榜和资源链接。讨论中还涉及了开放权重与闭源模型的比较，以及如何在Hugging Face transformers中嵌入图像的提示。此外，有观点认为该项目更适合使用传统的计算机视觉方法，而使用LLM的优势在于其作为基础模型可以直接使用，无需创建类别或收集训练数据。

主要观点

👍 选择适合的多模态大语言模型
- 支持理由：模型如InternVL和florenece-2-large-ft被推荐用于图像分类任务，性能优异。
- 反对声音：有观点认为该项目更适合使用传统的计算机视觉方法。
🔥 使用排行榜和资源
- 正方观点：分享了多个多模态大语言模型的排行榜链接，有助于了解最新趋势。
- 反方观点：讨论了开放权重和闭源模型的可用性，指出只有少数模型有开放权重。
💡 LLM的优势
- 使用LLM的主要优势之一是它们作为良好的基础模型，可以直接使用，无需创建类别或收集训练数据。

金句与有趣评论

“😂 A lot of people seem to like InternVL, but have you tried this? :)”
- 亮点：提供了实用的排行榜链接，帮助用户快速了解当前流行的模型。
“🤔 You can try florenece-2-large-ft. It is less than 1B but outperforms many larger models.”
- 亮点：推荐了一个性能优异的小型模型，强调了模型大小并非唯一决定因素。
“👀 One of the main points of foundational models is they’re good world models so you can use them out of the box, so you don’t need to create classes, gather training data, etc.”
- 亮点：强调了基础模型的直接可用性，无需额外数据准备。

情感分析

讨论的总体情感倾向较为积极，参与者们分享了有价值的资源和模型推荐，尽管有关于传统方法与现代LLM方法的讨论，但整体氛围是寻求最佳解决方案和技术进步。

趋势与预测

新兴话题：多模态大语言模型在图像分类中的应用将继续受到关注，特别是如何选择和使用这些模型。
潜在影响：随着技术的进步，多模态大语言模型可能会在更多领域得到应用，特别是在需要图像和文本结合处理的场景中。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

讨论总结

主要观点

金句与有趣评论

情感分析

趋势与预测