Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas

📄 arXiv: 2503.01773v3 📥 PDF

作者: Shiqi Chen, Tongyao Zhu, Ruochen Zhou, Jinghan Zhang, Siyang Gao, Juan Carlos Niebles, Mor Geva, Junxian He, Jiajun Wu, Manling Li

分类: cs.CL

发布日期: 2025-03-03 (更新: 2025-10-13)

备注: ICML 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出ADAPTVIS,通过置信度调整视觉注意力,显著提升VLM空间推理能力

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)

关键词: 视觉语言模型 空间推理 注意力机制 可解释性 自适应调整

📋 核心要点

  1. 现有VLM在简单空间推理任务中表现不佳,无法准确识别物体间的空间关系。
  2. 提出ADAPTVIS方法,通过置信度自适应地调整视觉注意力,聚焦关键区域或扩大上下文。
  3. ADAPTVIS在WhatsUp和VSR等基准测试中取得显著提升,无需额外训练成本。

📝 摘要(中文)

大型视觉语言模型(VLM)长期以来在空间推理任务中表现不佳。令人惊讶的是,即使是简单的空间推理任务,例如识别仅两个对象之间的“在...之下”或“在...之后”的关系,也对当前的VLM构成了重大挑战。本文从机制可解释性的角度研究了空间推理的挑战,深入研究模型的内部状态,以检查图像和文本token之间的交互。通过追踪中间层中图像上的注意力分布,我们观察到成功的空间推理与模型将其注意力分布与实际对象位置对齐的能力密切相关,尤其是在熟悉和不熟悉的空间关系之间存在差异。受这些发现的启发,我们提出了一种基于推理时置信度分数的ADAPTVIS方法,以在置信度高时锐化对高度相关区域的注意力,而在置信度较低时平滑和扩大注意力窗口以考虑更广泛的上下文。这种无需训练的解码方法在WhatsUp和VSR等空间推理基准测试中显示出显着改进(例如,高达50个绝对点的改进),且成本可忽略不计。我们公开发布代码和数据,供研究使用。

🔬 方法详解

问题定义:现有的大型视觉语言模型(VLM)在空间推理任务中表现不佳,即使是识别两个物体间简单空间关系(如“在...之下”、“在...之后”)也存在困难。现有方法缺乏对图像中关键区域的有效关注,导致无法准确理解物体间的空间关系。

核心思路:论文的核心思路是,VLM在空间推理上的成功与否,与其注意力分布和实际物体位置的对齐程度密切相关。因此,通过在推理时动态调整注意力分布,可以提高VLM的空间推理能力。具体来说,当模型对某个区域的判断有较高置信度时,就锐化该区域的注意力;当置信度较低时,则扩大注意力范围,考虑更广泛的上下文信息。

技术框架:ADAPTVIS是一个推理时解码方法,不需要额外的训练。其主要流程如下:1. 使用VLM对图像和文本进行编码,得到图像和文本的特征表示。2. 在中间层,追踪图像上的注意力分布。3. 基于VLM的输出置信度,计算一个自适应的权重。4. 使用该权重调整注意力分布,置信度高时锐化注意力,置信度低时平滑注意力。5. 使用调整后的注意力分布进行空间推理。

关键创新:ADAPTVIS的关键创新在于提出了一种基于置信度的自适应注意力调整机制。与传统的注意力机制不同,ADAPTVIS能够根据模型自身的判断动态地调整注意力分布,从而更好地关注图像中的关键区域或考虑更广泛的上下文信息。这种方法不需要额外的训练,可以直接应用于现有的VLM。

关键设计:ADAPTVIS的关键设计在于置信度分数的计算和注意力调整策略。置信度分数基于VLM的输出概率,用于衡量模型对当前预测的把握程度。注意力调整策略则根据置信度分数,对注意力分布进行锐化或平滑。具体来说,当置信度较高时,使用一个较小的核对注意力分布进行卷积,以锐化注意力;当置信度较低时,使用一个较大的核进行卷积,以平滑注意力。核的大小与置信度分数成反比。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ADAPTVIS在WhatsUp和VSR等空间推理基准测试中取得了显著的性能提升。例如,在某些任务上,ADAPTVIS的性能提升高达50个绝对点。此外,ADAPTVIS是一种无需训练的解码方法,这意味着它可以直接应用于现有的VLM,而无需进行额外的训练,具有很高的实用价值。

🎯 应用场景

该研究成果可广泛应用于需要空间推理能力的视觉语言任务中,例如机器人导航、图像描述、视觉问答等。通过提高VLM的空间推理能力,可以使机器更好地理解周围环境,从而实现更智能的人机交互和自动化应用。未来,该方法可以进一步扩展到更复杂的空间关系和场景中。

📄 摘要(原文)

Large Vision Language Models (VLMs) have long struggled with spatial reasoning tasks. Surprisingly, even simple spatial reasoning tasks, such as recognizing "under" or "behind" relationships between only two objects, pose significant challenges for current VLMs. In this work, we study the spatial reasoning challenge from the lens of mechanistic interpretability, diving into the model's internal states to examine the interactions between image and text tokens. By tracing attention distribution over the image through out intermediate layers, we observe that successful spatial reasoning correlates strongly with the model's ability to align its attention distribution with actual object locations, particularly differing between familiar and unfamiliar spatial relationships. Motivated by these findings, we propose ADAPTVIS based on inference-time confidence scores to sharpen the attention on highly relevant regions when confident, while smoothing and broadening the attention window to consider a wider context when confidence is lower. This training-free decoding method shows significant improvement (e.g., up to a 50 absolute point improvement) on spatial reasoning benchmarks such as WhatsUp and VSR with negligible cost. We make code and data publicly available for research purposes at https://github.com/shiqichen17/AdaptVis.