原贴链接

前几天llama.cpp支持了Qwen2 - VL（具有视觉能力的Qwen模型），所以我决定试用72b版本（Q5_K_M）来看看它的性能，它给我留下了深刻的印象。以下是我测试用的4张示例图片：https://llminfo.image.fangd123.cn/images/owjag56apn7e1.jpg!/format/webp。#图片1，提示：详细但简洁地描述你在这张图片中看到的内容，输出：图片中有一个人物的精美雕像，穿着带有精美金饰的绿色长袍。这个人物有着长长的、波浪状的紫色头发，戴着一个叶状头饰，看起来充满自然气息。他手持一根木杖，增添了其高贵或神秘的气质。木杖上栖息着一只色彩斑斓的鸟，有着绿色、黄色和红色相间的羽毛。雕像放置在一个圆形底座上，底座覆盖着绿色苔藓，强化了自然主题。背景柔和模糊，显示出一个舒适的客厅环境，有沙发、台灯和墙上的一幅画。#图片2，提示：这张图片中有什么不寻常的地方吗？输出：是的，这张图片中有不寻常的地方。场景似乎是一个中世纪或奇幻村庄，有一名骑士骑着马，半木结构的房屋，背景中有一座城堡。然而，同一条街上有一辆现代红色汽车在行驶，这是一个不符合场景历史或奇幻主题的时代错误元素。#图片3，提示：描述这张图片。输出：图片描绘了一名保安在一个工业或安全设施的金属网格地板上行走。保安穿着深蓝色制服，配有标有“SECURITY”的背心和一顶帽子。环境似乎是一个高度安全的区域，可能是实验室或封闭设施，因为墙上有金属门、管道和控制面板。这个区域灯光昏暗，只有几盏灯提供微弱的照明。整体氛围紧张而警觉，是典型的高安全环境。#图片4，提示：描述这张图片。输出：这张图片是一个奇幻或中世纪场景的四个画面的拼贴。画面描绘了一个长发男子披着斗篷，手持宝剑面对一群身着铠甲的战士。背景是一片自然的森林区域。左上角的画面是男子的特写，看起来很坚定。右上角的画面是他的背影，面对战士们。左下角的画面是战士们的特写，他们戴着头盔和铠甲。右下角的画面是男子在与战士们战斗。我认为Qwen2 - VL 72b或多或少准确地描述了这些图片，尤其令我印象深刻的是它能理解图片4《指环王》中的人物和事件。

讨论总结

原帖作者分享了Qwen2 - VL 72b在图像描述任务中的不错表现，给出了四张测试图像的输入与模型输出示例。评论主要集中在几个方面，一是对测试时使用的UI表示好奇或提出相关问题，因为目前没有很好支持Qwen2 - VL的UI；二是针对Qwen2 - VL 72b进行各种模型测试，如多米诺骨牌任务中表现不佳的探讨；三是在资源分配方面，考虑不同规模VL模型输出比较来决定服务器资源的分配；还有对Qwen2 - VL不同版本（如7b和72b）的比较等。整体氛围偏向理性探讨技术相关话题。

主要观点

👍 目前没有支持Qwen2 - VL的UI，只能用Windows命令提示符测试
- 支持理由：回复者表示自己就是这样测试的，虽然不实用但可用于测试性能。
- 反对声音：无
🔥 Qwen2 - VL 72b在计算多米诺骨牌黑点数量任务上表现不佳
- 正方观点：测试者进行测试发现结果不准确。
- 反方观点：可能是由于非最优设置（如温度参数）、图像自身特性（有反射、分辨率等）影响结果，不能仅因一次测试结果否定模型。
💡 希望看到不同规模VL模型输出比较，这会影响资源分配时的模型选择
- 解释：评论者正在考虑为VL模型分配服务器资源，不同规模模型描述图像能力的差异会影响选择。
💡 Qwen2 - VL 7b和72b之间存在巨大差异，若硬件允许应选择72b
- 解释：有评论者私下比较过这两个版本，发现差异非常大，在硬件能运行72b的情况下建议选择72b。
💡 使用Qwen2 - VL在exllama和sillytavern中的体验较好，但7b版本难以理解表情包潜台词
- 解释：评论者分享自己使用的体验，指出7b版本存在的理解表情包潜台词的问题。

金句与有趣评论

“😂 skeeto: What UI are you using to do these prompts? As far as I can tell, the old multimodal interfaces are all vestigial, leftover from llava, and are not hooked up to the new Qwen2 - VL support.”
- 亮点：直接引出关于UI的讨论，是整个UI话题的起始点。
“🤔 Nope, Qwen2 - VL 72b is not a very good counter, at least not with black dots :P”
- 亮点：简洁地表明Qwen2 - VL 72b在特定任务上表现不好。
“👀 我会很想看到小型VL模型和大型VL模型输出的比较。”
- 亮点：表达出很多人在选择模型时的关注点，即不同规模模型的比较。
“😎 如果你的硬件能运行72b，那绝对要选这个。”
- 亮点：给出了在硬件允许情况下选择Qwen2 - VL版本的建议。
“🤓 我使用它在exllama和sillytavern中，感觉相当不错。”
- 亮点：分享了在特定环境下使用Qwen2 - VL的正面体验。

情感分析

总体情感倾向较为中性客观。主要分歧点在于对Qwen2 - VL 72b的性能评价，如在多米诺骨牌任务中的表现，一方认为表现不佳，另一方则指出可能存在其他影响因素不能仅因一次测试否定模型。可能的原因是大家从不同的测试任务、使用场景出发，并且对模型性能的期望和评判标准也有所不同。

趋势与预测

新兴话题：创建使用qwen2 - vl的Joycaption 2分支的想法可能会引发后续关于模型拓展应用方面的讨论。
潜在影响：这些关于Qwen2 - VL不同方面的讨论，有助于使用者在模型选择、资源分配、测试方法等方面做出更合理的决策，对自然语言处理和视觉语言模型相关领域的发展有一定的推动作用，比如促使相关UI的开发以更好地支持Qwen2 - VL。

详细内容：

标题：关于 Qwen2-VL 72b 的热门讨论

近日，Reddit 上一则关于 llama.cpp 对 Qwen2-VL 支持的帖子引发了热烈讨论。原帖作者称对 Qwen2-VL 72b 版本进行了测试，并对其在图像描述方面的表现印象深刻，还分享了 4 个示例图像及相应的描述。该帖子获得了众多关注，评论数众多，大家主要围绕着使用界面、模型表现、参数设置等方面展开了讨论。

在讨论中，有人提出关于使用何种 UI 进行操作的疑问，比如“[skeeto] 询问使用什么 UI 来进行这些提示？”“[Bandit-level-200] 询问使用的是什么 UI？”。有用户表示目前还没有支持最新版本 llama.cpp 与 Qwen2-VL 的 UI，像[Admirable-Star7088]就只能通过 Windows 命令提示符来运行。

对于模型在不同任务中的表现，大家也各抒己见。例如在计算多米诺骨牌上的黑点数量任务中，Qwen2-VL 72b 表现不佳，即使调整了温度等参数仍未改善。有人认为这可能与图像的反射、分辨率或者关键设置有关。

在比较不同规模的 VL 模型方面，[SomeOddCodeGuy] 希望看到小型 VL 模型和大型模型输出的对比，以确定如何为 VL 模型分配服务器资源。[Admirable-Star7088] 则表示私下比较过 Qwen2-VL 7b 和 72b，二者差异巨大，如果硬件支持，建议选择 72b。

还有用户询问硬件和量化使用情况，如[No-Statement-0001]，而[Admirable-Star7088] 回复使用了[Bartowski’s quant with imatrix]，并说明了运行硬件情况。

总的来说，大家对 Qwen2-VL 72b 的表现进行了深入探讨，提出了各种观点和疑问，为进一步了解和优化该模型提供了丰富的思路。但目前对于该模型在不同任务中的最佳表现和适用场景，仍有待进一步的研究和探索。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#