原贴链接

前几天llama.cpp支持了Qwen2 - VL(具有视觉能力的Qwen模型),所以我决定试用72b版本(Q5_K_M)来看看它的性能,它给我留下了深刻的印象。以下是我测试用的4张示例图片:https://llminfo.image.fangd123.cn/images/owjag56apn7e1.jpg!/format/webp。#图片1,提示:详细但简洁地描述你在这张图片中看到的内容,输出:图片中有一个人物的精美雕像,穿着带有精美金饰的绿色长袍。这个人物有着长长的、波浪状的紫色头发,戴着一个叶状头饰,看起来充满自然气息。他手持一根木杖,增添了其高贵或神秘的气质。木杖上栖息着一只色彩斑斓的鸟,有着绿色、黄色和红色相间的羽毛。雕像放置在一个圆形底座上,底座覆盖着绿色苔藓,强化了自然主题。背景柔和模糊,显示出一个舒适的客厅环境,有沙发、台灯和墙上的一幅画。#图片2,提示:这张图片中有什么不寻常的地方吗?输出:是的,这张图片中有不寻常的地方。场景似乎是一个中世纪或奇幻村庄,有一名骑士骑着马,半木结构的房屋,背景中有一座城堡。然而,同一条街上有一辆现代红色汽车在行驶,这是一个不符合场景历史或奇幻主题的时代错误元素。#图片3,提示:描述这张图片。输出:图片描绘了一名保安在一个工业或安全设施的金属网格地板上行走。保安穿着深蓝色制服,配有标有“SECURITY”的背心和一顶帽子。环境似乎是一个高度安全的区域,可能是实验室或封闭设施,因为墙上有金属门、管道和控制面板。这个区域灯光昏暗,只有几盏灯提供微弱的照明。整体氛围紧张而警觉,是典型的高安全环境。#图片4,提示:描述这张图片。输出:这张图片是一个奇幻或中世纪场景的四个画面的拼贴。画面描绘了一个长发男子披着斗篷,手持宝剑面对一群身着铠甲的战士。背景是一片自然的森林区域。左上角的画面是男子的特写,看起来很坚定。右上角的画面是他的背影,面对战士们。左下角的画面是战士们的特写,他们戴着头盔和铠甲。右下角的画面是男子在与战士们战斗。我认为Qwen2 - VL 72b或多或少准确地描述了这些图片,尤其令我印象深刻的是它能理解图片4《指环王》中的人物和事件。

讨论总结

原帖作者分享了Qwen2 - VL 72b在图像描述任务中的不错表现,给出了四张测试图像的输入与模型输出示例。评论主要集中在几个方面,一是对测试时使用的UI表示好奇或提出相关问题,因为目前没有很好支持Qwen2 - VL的UI;二是针对Qwen2 - VL 72b进行各种模型测试,如多米诺骨牌任务中表现不佳的探讨;三是在资源分配方面,考虑不同规模VL模型输出比较来决定服务器资源的分配;还有对Qwen2 - VL不同版本(如7b和72b)的比较等。整体氛围偏向理性探讨技术相关话题。

主要观点

  1. 👍 目前没有支持Qwen2 - VL的UI,只能用Windows命令提示符测试
    • 支持理由:回复者表示自己就是这样测试的,虽然不实用但可用于测试性能。
    • 反对声音:无
  2. 🔥 Qwen2 - VL 72b在计算多米诺骨牌黑点数量任务上表现不佳
    • 正方观点:测试者进行测试发现结果不准确。
    • 反方观点:可能是由于非最优设置(如温度参数)、图像自身特性(有反射、分辨率等)影响结果,不能仅因一次测试结果否定模型。
  3. 💡 希望看到不同规模VL模型输出比较,这会影响资源分配时的模型选择
    • 解释:评论者正在考虑为VL模型分配服务器资源,不同规模模型描述图像能力的差异会影响选择。
  4. 💡 Qwen2 - VL 7b和72b之间存在巨大差异,若硬件允许应选择72b
    • 解释:有评论者私下比较过这两个版本,发现差异非常大,在硬件能运行72b的情况下建议选择72b。
  5. 💡 使用Qwen2 - VL在exllama和sillytavern中的体验较好,但7b版本难以理解表情包潜台词
    • 解释:评论者分享自己使用的体验,指出7b版本存在的理解表情包潜台词的问题。

金句与有趣评论

  1. “😂 skeeto: What UI are you using to do these prompts? As far as I can tell, the old multimodal interfaces are all vestigial, leftover from llava, and are not hooked up to the new Qwen2 - VL support.”
    • 亮点:直接引出关于UI的讨论,是整个UI话题的起始点。
  2. “🤔 Nope, Qwen2 - VL 72b is not a very good counter, at least not with black dots :P”
    • 亮点:简洁地表明Qwen2 - VL 72b在特定任务上表现不好。
  3. “👀 我会很想看到小型VL模型和大型VL模型输出的比较。”
    • 亮点:表达出很多人在选择模型时的关注点,即不同规模模型的比较。
  4. “😎 如果你的硬件能运行72b,那绝对要选这个。”
    • 亮点:给出了在硬件允许情况下选择Qwen2 - VL版本的建议。
  5. “🤓 我使用它在exllama和sillytavern中,感觉相当不错。”
    • 亮点:分享了在特定环境下使用Qwen2 - VL的正面体验。

情感分析

总体情感倾向较为中性客观。主要分歧点在于对Qwen2 - VL 72b的性能评价,如在多米诺骨牌任务中的表现,一方认为表现不佳,另一方则指出可能存在其他影响因素不能仅因一次测试否定模型。可能的原因是大家从不同的测试任务、使用场景出发,并且对模型性能的期望和评判标准也有所不同。

趋势与预测

  • 新兴话题:创建使用qwen2 - vl的Joycaption 2分支的想法可能会引发后续关于模型拓展应用方面的讨论。
  • 潜在影响:这些关于Qwen2 - VL不同方面的讨论,有助于使用者在模型选择、资源分配、测试方法等方面做出更合理的决策,对自然语言处理和视觉语言模型相关领域的发展有一定的推动作用,比如促使相关UI的开发以更好地支持Qwen2 - VL。

详细内容:

标题:关于 Qwen2-VL 72b 的热门讨论

近日,Reddit 上一则关于 llama.cpp 对 Qwen2-VL 支持的帖子引发了热烈讨论。原帖作者称对 Qwen2-VL 72b 版本进行了测试,并对其在图像描述方面的表现印象深刻,还分享了 4 个示例图像及相应的描述。该帖子获得了众多关注,评论数众多,大家主要围绕着使用界面、模型表现、参数设置等方面展开了讨论。

在讨论中,有人提出关于使用何种 UI 进行操作的疑问,比如“[skeeto] 询问使用什么 UI 来进行这些提示?”“[Bandit-level-200] 询问使用的是什么 UI?”。有用户表示目前还没有支持最新版本 llama.cpp 与 Qwen2-VL 的 UI,像[Admirable-Star7088]就只能通过 Windows 命令提示符来运行。

对于模型在不同任务中的表现,大家也各抒己见。例如在计算多米诺骨牌上的黑点数量任务中,Qwen2-VL 72b 表现不佳,即使调整了温度等参数仍未改善。有人认为这可能与图像的反射、分辨率或者关键设置有关。

在比较不同规模的 VL 模型方面,[SomeOddCodeGuy] 希望看到小型 VL 模型和大型模型输出的对比,以确定如何为 VL 模型分配服务器资源。[Admirable-Star7088] 则表示私下比较过 Qwen2-VL 7b 和 72b,二者差异巨大,如果硬件支持,建议选择 72b。

还有用户询问硬件和量化使用情况,如[No-Statement-0001],而[Admirable-Star7088] 回复使用了[Bartowski’s quant with imatrix],并说明了运行硬件情况。

总的来说,大家对 Qwen2-VL 72b 的表现进行了深入探讨,提出了各种观点和疑问,为进一步了解和优化该模型提供了丰富的思路。但目前对于该模型在不同任务中的最佳表现和适用场景,仍有待进一步的研究和探索。