Beyond the Vision Encoder: Identifying and Mitigating Spatial Bias in Large Vision-Language Models
作者: Yingjie Zhu, Xuefeng Bai, Kehai Chen, Yang Xiang, Youcheng Pan, Yongshuai Hou, Weili Guan, Jun Yu, Min Zhang
分类: cs.CV, cs.CL
发布日期: 2025-09-26 (更新: 2026-02-03)
💡 一句话要点
提出自适应全局上下文注入(AGCI)以解决大视觉语言模型中的空间偏见问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 空间偏见 全局上下文 自适应注入 多模态学习
📋 核心要点
- 现有LVLMs在处理空间变化时表现出不一致性,存在空间偏见,影响了其语义理解的鲁棒性。
- 提出自适应全局上下文注入(AGCI)机制,通过动态注入全局视觉上下文来增强图像token的语义可访问性,从而减轻空间偏见。
- 实验表明AGCI不仅提升了LVLMs的空间鲁棒性,还在下游任务和幻觉基准测试中取得了优异的性能。
📝 摘要(中文)
大型视觉语言模型(LVLMs)在各种多模态任务中取得了显著成功,但它们对空间变化的鲁棒性仍未得到充分理解。本文系统地研究了LVLMs的空间偏见,考察了当相同的关键视觉信息被放置在图像中的不同位置时,模型如何响应。通过受控的探测实验,我们观察到当前的LVLMs在这样的空间位移下经常产生不一致的输出,揭示了它们在语义理解中存在明显的空间偏见。进一步的分析表明,这种偏见并非源于视觉编码器,而是源于视觉编码器和大型语言模型之间注意力机制的不匹配,这扰乱了全局信息流。受此启发,我们提出了一种自适应全局上下文注入(AGCI)机制,该机制将共享的全局视觉上下文动态地注入到每个图像token中。AGCI无需架构修改即可工作,通过增强图像token的语义可访问性来减轻空间偏见,同时保留模型的内在能力。大量的实验表明,AGCI不仅增强了LVLMs的空间鲁棒性,而且在各种下游任务和幻觉基准测试中也取得了强大的性能。
🔬 方法详解
问题定义:论文旨在解决大型视觉语言模型(LVLMs)在处理图像中目标的空间位置变化时表现出的不一致性问题,即空间偏见。现有的LVLMs在相同的视觉信息位于图像不同位置时,可能会产生不同的输出,这表明模型对空间信息的理解存在偏差,限制了其在实际应用中的可靠性。
核心思路:论文的核心思路是,LVLMs的空间偏见并非源于视觉编码器本身,而是由于视觉编码器和大型语言模型之间注意力机制的不匹配,导致全局信息流受阻。因此,通过增强图像token对全局视觉上下文的感知,可以有效缓解这种空间偏见。
技术框架:AGCI (Adaptive Global Context Injection) 的整体框架是在现有的LVLM架构上增加一个轻量级的模块,该模块负责提取全局视觉上下文,并将其动态地注入到每个图像token中。具体流程如下:1) 使用视觉编码器提取图像特征;2) 计算全局视觉上下文向量;3) 使用自适应权重将全局上下文注入到每个图像token中;4) 将增强后的图像token输入到大型语言模型中进行处理。
关键创新:AGCI的关键创新在于其自适应的全局上下文注入机制。与直接将全局上下文简单地添加到每个图像token不同,AGCI使用可学习的权重来动态地调整全局上下文的注入量,从而更好地适应不同图像token的需求。这种自适应性使得AGCI能够更有效地利用全局信息,同时避免引入过多的噪声。
关键设计:AGCI的关键设计包括:1) 全局上下文向量的计算方式:可以使用全局平均池化或注意力机制来提取全局视觉上下文;2) 自适应权重的计算方式:可以使用一个小型神经网络来预测每个图像token的全局上下文注入权重;3) 损失函数的设计:可以使用对比学习或知识蒸馏等方法来训练AGCI模块,使其能够更好地学习全局上下文的表示。
🖼️ 关键图片
📊 实验亮点
实验结果表明,AGCI能够显著提升LVLMs的空间鲁棒性,在空间位移测试中取得了明显的性能提升。此外,AGCI还在各种下游任务(如视觉问答、图像描述)和幻觉基准测试中取得了优异的性能,证明了其有效性和泛化能力。
🎯 应用场景
该研究成果可应用于提升视觉语言模型在机器人导航、自动驾驶、图像编辑等领域的性能。通过增强模型对空间变化的鲁棒性,可以提高其在复杂环境中的感知和决策能力,从而实现更可靠、更智能的应用。
📄 摘要(原文)
Large Vision-Language Models (LVLMs) have achieved remarkable success across a wide range of multimodal tasks, yet their robustness to spatial variations remains insufficiently understood. In this work, we conduct a systematic study of the spatial bias of LVLMs, examining how models respond when identical key visual information is placed at different locations within an image. Through controlled probing experiments, we observe that current LVLMs often produce inconsistent outputs under such spatial shifts, revealing a clear spatial bias in their semantic understanding. Further analysis indicates that this bias does not stem from the vision encoder, but rather from a mismatch in attention mechanisms between the vision encoder and the large language model, which disrupts the global information flow. Motivated by this insight, we propose Adaptive Global Context Injection (AGCI), a lightweight mechanism that dynamically injects shared global visual context into each image token. AGCI works without architectural modifications, mitigating spatial bias by enhancing the semantic accessibility of image tokens while preserving the model's intrinsic capabilities. Extensive experiments demonstrate that AGCI not only enhances the spatial robustness of LVLMs, but also achieves strong performance on various downstream tasks and hallucination benchmarks.