原贴链接

我的问题是:当我上传一张图像时,大语言模型(LLM)实际上在图像中‘看到’了什么?是仅使用视觉变换器提取图像的一般概念,意味着只有有限的信息?还是图像一直加载在内存中,让大语言模型能够分析它的任何部分?又或者它依赖于单独的感知器的输出,该感知器检测对象和特征,只提供一个结构化的列表而不是完整的视觉理解?我之所以这样问,是因为大语言模型在处理图像时似乎缺乏真正的空间意识。例如,如果我提供一张棕色桌子上的黑猫的图像,然后要求大语言模型使用JavaScript和Canvas重新创建它——只用简单的形状但保持准确的位置:它失败了。它没有将对象正确地放置在正确的位置和大小上,而只是捕捉到图像的概念。我不是在谈论详细的图像重建——如果大语言模型能够将对象表示为具有正确比例的正确位置的边界框,我就很满意了。但它似乎没有能力做到这一点。我已经在ChatGPT、Grok和Gemma 3 27B上进行了测试,结果相似:它们画出了我最初给出的图像的概念,没有任何细节。并且我试图说服大语言模型在画布上应该的位置绘制特征,大语言模型就是不理解。

讨论总结

原帖对视觉语言模型(LLM)处理图像时到底能“看到”什么提出疑问,如是否只提取图像概念、图像是否一直在内存、是否依靠单独感知器输出等,还指出LLM处理图像时缺乏空间意识。评论从多个方面进行解答,包括视觉LLM处理图像是映射图像补丁、文本模型看到的是图像编码后的机器语言表示、图像经视觉编码器转换为潜在表示会丢失空间数据等,整个讨论充满技术探讨氛围。

主要观点

  1. 👍 视觉LLM处理图像是通过映射图像补丁来实现的,如同普通LLM处理字符序列的方式
    • 支持理由:inagy详细解释了视觉LLM像普通LLM一样处理标记,将图像补丁(14x14像素)进行映射,并以音频示例类比其他模态下的标记化
    • 反对声音:无
  2. 🔥 图像经视觉编码器转换为潜在表示,这种潜在表示会丢失详细空间数据,LLM依据抽象总结工作,导致无法重现精确布局或位置
    • 正方观点:IrisColt解释了视觉编码器对图像的转换以及LLM的工作依据,很好地解释了原帖中LLM缺乏空间意识的现象
    • 反方观点:无
  3. 💡 很多模型是SigLIP的包装,期待能编码多种格式(音频、图像、视频帧)的突破
    • 解释:评论者指出当前很多模型的情况,并表达对模型在多格式编码上取得突破的期待

金句与有趣评论

  1. “😂 inagy:It works with tokens like a normal LLM, but instead of mapping character sequences, it maps images patches (14x14 pixels usually).”
    • 亮点:简洁明了地解释了视觉LLM处理图像的方式
  2. “🤔 许多 of them 是 just a wrapper around SigLIP, I’m still waiting for the breakthrough, when these text models can encode both audio, image, video frames.”
    • 亮点:指出当前模型的现状并表达对未来突破的期待
  3. “👀 当你上传一个图像时,一个视觉编码器将其转换为一个潜在表示,这个表示捕捉整体语义——就像识别出棕色桌子上的黑猫——但丢失了详细的空间数据。”
    • 亮点:形象地解释了图像转换为潜在表示时的情况以及存在的问题

情感分析

总体情感倾向为中性客观,主要分歧点较少。因为整个讨论围绕技术原理展开,大家都是在理性地解释视觉LLM如何处理图像以及为何存在原帖提到的问题,没有明显的对立观点和情绪化表达。

趋势与预测

  • 新兴话题:视觉LLM在处理图像时如何弥补空间意识缺失的可能改进方向。
  • 潜在影响:对视觉LLM技术的改进和发展提供理论探讨基础,有助于推动相关技术在图像相关任务中的应用优化。

详细内容:

《探索视觉语言模型的工作原理及挑战》

最近,Reddit 上一个关于“视觉语言模型(LLM)如何工作以及其在图像理解方面的表现”的帖子引发了热烈讨论。该帖子获得了众多关注,评论数众多。

原帖提出了一系列关键问题:LLM 在处理上传的图像时到底“看到”了什么?是通过视觉转换器提取图像的一般概念,信息有限?还是图像全程加载在内存中以供 LLM 分析任何部分?亦或是依赖单独的感知器检测物体和特征,仅提供结构化列表而非完整的视觉理解?同时,原帖还指出,LLM 在处理图像时似乎缺乏真正的空间意识,比如无法准确地用 JavaScript 和 Canvas 重现给定图像中物体的位置和大小,只能捕捉到图像的概念。

讨论中的主要观点包括: 有人认为,它像普通 LLM 一样使用标记,但不是映射字符序列,而是映射图像块(通常为 14x14 像素)。有人指出,在 VLM 的训练过程中,由于它是在现有 LLM 之上进行训练的,会开始将 14x14 像素图像块的信息与 LLM 空间中具有类似含义的文本信息相关联。还有人表示,LLM 无法可靠地重现所看到的内容,可能是因为图像在转换为标记后,原始表示中的位置信息丢失了。

有用户提出疑问:对于文本 LLM,标记是独立于处理的文本的给定“词汇表”,那对于 14×14 像素的图像块,这怎么能行得通呢?

也有用户认为,当上传图像时,视觉编码器会将其转换为捕捉整体语义的潜在表示,比如识别出黑色的猫在棕色的桌子上,但会丢失详细的空间数据,LLM 仅基于这种抽象总结进行工作,所以无法重现精确的布局或位置。

讨论中的共识在于,大家都在努力探讨 LLM 在图像处理方面的工作机制和存在的不足。

特别有见地的观点是,有人将 LLM 处理图像与处理文本进行类比,形象地解释了其中的差异和难点,丰富了讨论的深度。

总之,通过这次热烈的讨论,让我们对视觉语言模型的工作原理和面临的挑战有了更深入的认识和思考。