Visual Representations inside the Language Model

📄 arXiv: 2510.04819v1 📥 PDF

作者: Benlin Liu, Amita Kamath, Madeleine Grunde-McLaughlin, Winson Han, Ranjay Krishna

分类: cs.CV, cs.CL

发布日期: 2025-10-06

备注: Accepted to COLM 2025


💡 一句话要点

分析多模态大语言模型内部视觉表征,揭示其感知能力瓶颈与改进方向

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视觉表征 键值tokens 感知能力 可解释性

📋 核心要点

  1. 现有的多模态大语言模型在感知任务上表现不佳,原因尚不明确,缺乏对其内部视觉表征的深入理解。
  2. 本文通过分析视觉键值tokens在语言模型中的流动,揭示了视觉信息在模型内部的处理方式和潜在瓶颈。
  3. 实验表明,图像值tokens包含足够的感知信息,但语言模型对视觉信息的处理存在损失,且存在输入无关的伪影。

📝 摘要(中文)

尽管已有大量工作分析视觉Transformer编码器和Transformer激活,我们仍然不清楚多模态大语言模型(MLM)为何在感知密集型任务上表现不佳。本文通过研究主流MLM(LLaVA-OneVision, Qwen2.5-VL, Llama-3-LLaVA-NeXT)如何处理其视觉键值(key-value)tokens,提供了一个新的视角。我们首先研究视觉信息在语言模型中的流动,发现图像值(value)tokens编码了足够的信息来零样本执行多个感知密集型任务:分割、语义对应、时间对应和指代表达式检测。我们发现,虽然语言模型确实增强了来自输入视觉编码投影的视觉信息(这与MLM的整体感知能力相关),但在几个任务上,它包含的视觉信息少于未经MLM微调的等效视觉编码器(SigLIP)。此外,我们发现语言模型后期层中与输入无关的图像键(key)tokens对应的视觉信息包含伪影,从而降低了整体MLM的感知能力。接下来,我们讨论了控制语言模型中的视觉信息,表明在图像输入中添加文本前缀可以提高视觉表征的感知能力。最后,我们揭示,如果语言模型能够更好地控制其视觉信息,它们的感知能力将显著提高;例如,在BLINK基准测试中33.3%的艺术风格问题中,语言模型中存在的感知信息没有传递到输出!我们的发现揭示了键值tokens在多模态系统中的作用,为MLM的更深层次的机制可解释性铺平了道路,并为训练其视觉编码器和语言模型组件提出了新的方向。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型(MLM)在感知密集型任务上表现不佳的问题。现有的研究主要集中在视觉Transformer编码器和Transformer激活的分析,但缺乏对MLM内部视觉表征的深入理解,特别是视觉键值tokens在语言模型中的作用。

核心思路:论文的核心思路是通过分析视觉键值tokens在语言模型中的流动,来理解视觉信息在MLM中的处理方式。通过研究图像值tokens和图像键tokens所包含的视觉信息,以及语言模型对视觉信息的增强和修改,来揭示MLM感知能力的瓶颈。

技术框架:论文的研究框架主要包括以下几个步骤:1) 选择主流的MLM模型(LLaVA-OneVision, Qwen2.5-VL, Llama-3-LLaVA-NeXT)作为研究对象。2) 分析图像值tokens所包含的视觉信息,评估其在零样本感知任务上的表现。3) 比较语言模型增强后的视觉信息与原始视觉编码器(SigLIP)的视觉信息,评估语言模型对视觉信息的修改。4) 分析图像键tokens所包含的视觉信息,揭示其中存在的伪影。5) 研究控制视觉信息的方法,例如添加文本前缀。6) 评估如果语言模型能够更好地控制其视觉信息,其感知能力能够提升多少。

关键创新:论文的关键创新在于:1) 从视觉键值tokens的角度分析MLM的感知能力,提供了一个新的视角。2) 揭示了图像值tokens包含足够的感知信息,但语言模型对视觉信息的处理存在损失,且存在输入无关的伪影。3) 提出了控制视觉信息的方法,例如添加文本前缀,可以提高感知能力。

关键设计:论文的关键设计包括:1) 选择了多个感知密集型任务,例如分割、语义对应、时间对应和指代表达式检测,来评估视觉信息的质量。2) 使用SigLIP作为基线,来评估语言模型对视觉信息的修改。3) 使用BLINK基准测试来评估语言模型中存在的感知信息是否能够传递到输出。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现,图像值tokens包含足够的感知信息,可以零样本执行多个感知任务。然而,语言模型对视觉信息的处理存在损失,且图像键tokens包含降低感知能力的伪影。通过添加文本前缀,可以改善视觉表征的感知能力。在BLINK基准测试中,有33.3%的艺术风格问题中,语言模型中存在的感知信息未能传递到输出。

🎯 应用场景

该研究成果可应用于提升多模态大语言模型在视觉感知任务中的性能,例如图像理解、视频分析、机器人导航等领域。通过更好地控制和利用视觉信息,可以提高模型在复杂场景下的理解和推理能力,从而实现更智能的人机交互。

📄 摘要(原文)

Despite interpretability work analyzing VIT encoders and transformer activations, we don't yet understand why Multimodal Language Models (MLMs) struggle on perception-heavy tasks. We offer an under-studied perspective by examining how popular MLMs (LLaVA-OneVision, Qwen2.5-VL, and Llama-3-LLaVA-NeXT) process their visual key-value tokens. We first study the flow of visual information through the language model, finding that image value tokens encode sufficient information to perform several perception-heavy tasks zero-shot: segmentation, semantic correspondence, temporal correspondence, and referring expression detection. We find that while the language model does augment the visual information received from the projection of input visual encodings-which we reveal correlates with overall MLM perception capability-it contains less visual information on several tasks than the equivalent visual encoder (SigLIP) that has not undergone MLM finetuning. Further, we find that the visual information corresponding to input-agnostic image key tokens in later layers of language models contains artifacts which reduce perception capability of the overall MLM. Next, we discuss controlling visual information in the language model, showing that adding a text prefix to the image input improves perception capabilities of visual representations. Finally, we reveal that if language models were able to better control their visual information, their perception would significantly improve; e.g., in 33.3% of Art Style questions in the BLINK benchmark, perception information present in the language model is not surfaced to the output! Our findings reveal insights into the role of key-value tokens in multimodal systems, paving the way for deeper mechanistic interpretability of MLMs and suggesting new directions for training their visual encoder and language model components.