From Drop-off to Recovery: A Mechanistic Analysis of Segmentation in MLLMs

📄 arXiv: 2603.17228v1 📥 PDF

作者: Boyong Wu, Sanghwan Kim, Zeynep Akata

分类: cs.CV, cs.AI, cs.LG

发布日期: 2026-03-18


💡 一句话要点

揭示MLLM图像分割机理:分析视觉编码、适配器与LLM层间的交互作用

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 图像分割 注意力机制 线性探测 机械分析

📋 核心要点

  1. MLLM在像素级视觉任务中应用广泛,但其空间理解能力尚不明确,需要深入研究。
  2. 论文通过逐层线性探测、注意力消融和双向注意力评估,分析MLLM的分割能力。
  3. 研究发现适配器导致分割表示下降,LLM层通过注意力机制逐步恢复,双向注意力有助于提升空间一致性。

📝 摘要(中文)

多模态大型语言模型(MLLM)越来越多地应用于像素级视觉任务,但其空间理解的内在能力仍然知之甚少。本文通过在整个MLLM流程(视觉编码器、适配器和LLM)上进行逐层线性探测评估,来研究其分割能力。此外,我们还进行了基于注意力的消融分析,以测试跨token注意力是否逐步细化视觉表示,并评估图像token之间双向注意力对空间一致性的影响。我们的分析表明,适配器引入了分割表示的下降,但LLM层通过注意力介导的细化逐步恢复,其中正确分类的token引导错误分类的邻居token朝着正确的标签方向发展。在早期图像token位置,这种恢复受到因果注意力的限制,而图像token之间的双向注意力可以缓解这种情况。这些发现为MLLM如何处理视觉信息以进行分割提供了一个机械解释,为未来具有分割能力的模型的设计提供了信息。

🔬 方法详解

问题定义:论文旨在深入理解多模态大型语言模型(MLLM)在图像分割任务中的工作机制。现有方法缺乏对MLLM内部各组件(视觉编码器、适配器、LLM)如何协同完成分割任务的细致分析,特别是适配器引入的影响以及LLM层如何利用注意力机制进行空间推理的过程。

核心思路:论文的核心思路是通过一系列干预性实验,包括逐层线性探测、注意力消融和双向注意力评估,来揭示MLLM在图像分割过程中各组件的作用和交互方式。通过分析这些实验结果,可以理解MLLM如何从视觉编码器提取特征,适配器如何影响分割表示,以及LLM层如何利用注意力机制逐步恢复和细化分割结果。

技术框架:整体框架包括三个主要阶段:1) 视觉编码器:负责将输入图像编码成视觉特征表示。2) 适配器:将视觉特征表示转换为LLM可以理解的形式。3) LLM:利用自身的语言建模能力和注意力机制,对视觉特征进行推理和分割。论文通过在每个阶段进行线性探测,来评估其分割能力。此外,还通过注意力消融实验来研究跨token注意力对分割结果的影响,并通过双向注意力评估来分析空间一致性。

关键创新:论文的关键创新在于对MLLM在图像分割任务中的工作机制进行了深入的机械分析。具体来说,论文揭示了适配器在分割表示中引入的下降现象,并阐明了LLM层如何通过注意力机制逐步恢复和细化分割结果。此外,论文还发现双向注意力可以缓解因果注意力对早期图像token位置分割恢复的限制。

关键设计:论文的关键设计包括:1) 逐层线性探测:通过在视觉编码器、适配器和LLM的每一层训练线性分类器,来评估其分割能力。2) 注意力消融:通过移除特定token的注意力连接,来研究其对分割结果的影响。3) 双向注意力评估:通过分析图像token之间的双向注意力权重,来评估空间一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,适配器会降低分割表示的质量,但LLM层可以通过注意力机制逐步恢复。注意力消融实验显示,正确分类的token可以引导错误分类的邻居token朝着正确的标签方向发展。双向注意力评估表明,它可以缓解因果注意力对早期图像token位置分割恢复的限制。

🎯 应用场景

该研究成果可应用于提升MLLM在图像分割、目标检测、场景理解等视觉任务中的性能。通过理解MLLM的分割机理,可以设计更有效的模型架构和训练策略,从而推动多模态人工智能的发展,并应用于自动驾驶、医疗影像分析、智能安防等领域。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) are increasingly applied to pixel-level vision tasks, yet their intrinsic capacity for spatial understanding remains poorly understood. We investigate segmentation capacity through a layerwise linear probing evaluation across the entire MLLM pipeline: vision encoder, adapter, and LLM. We further conduct an intervention based attention knockout analysis to test whether cross-token attention progressively refines visual representations, and an evaluation of bidirectional attention among image tokens on spatial consistency. Our analysis reveals that the adapter introduces a segmentation representation drop-off, but LLM layers progressively recover through attention-mediated refinement, where correctly classified tokens steer misclassified neighbors toward the correct label. At early image token positions, this recovery is bounded by causal attention, which bidirectional attention among image tokens alleviates. These findings provide a mechanistic account of how MLLMs process visual information for segmentation, informing the design of future segmentation-capable models.