Tinted Frames: Question Framing Blinds Vision-Language Models

📄 arXiv: 2603.19203v2 📥 PDF

作者: Wan-Cyuan Fan, Jiayun Luo, Declan Kutscher, Leonid Sigal, Ritwik Gupta

分类: cs.CV

发布日期: 2026-03-19 (更新: 2026-03-20)

备注: Preprint. Project page: https://davidhalladay.github.io/tinted_frames_demo/


💡 一句话要点

揭示视觉语言模型对问题框架的敏感性,并提出提示调优方法提升视觉 grounding。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 视觉推理 注意力机制 问题框架 提示调优

📋 核心要点

  1. 现有视觉语言模型在视觉推理任务中常常未能充分利用视觉输入,存在“盲视”问题。
  2. 论文发现模型对问题框架敏感,相同视觉推理需求下,不同提问方式影响模型对视觉信息的关注。
  3. 提出基于可学习token的提示调优方法,鼓励模型学习鲁棒的视觉关注模式,提升性能。

📝 摘要(中文)

本文揭示了视觉语言模型(VLM)存在选择性盲视现象,即它们会根据语言框架调整对视觉输入的关注程度,即使不同的框架需要相同的视觉推理。通过视觉注意力作为探针,量化了框架如何改变图像上的注意力和分布。与开放式提问相比,多项选择和是/否等约束性框架会显著降低对图像上下文的注意力,减少对任务相关区域的关注,并将注意力转移到无信息token上。进一步证明,这种注意力错配是准确率下降和跨框架不一致的主要原因。基于此,提出了一种轻量级的提示调优方法,使用可学习的token来鼓励在开放式设置中观察到的鲁棒、视觉接地的注意力模式,从而提高视觉 grounding 并改善跨框架的性能。

🔬 方法详解

问题定义:现有视觉语言模型在处理视觉推理任务时,对视觉信息的利用不足,存在“盲视”现象。更具体地说,即使是需要相同视觉推理的任务,模型也会因为不同的问题框架(例如,开放式问题、多项选择题、是/否问题)而表现出不同的视觉关注程度,导致性能下降和跨框架不一致性。现有方法没有充分考虑到问题框架对视觉信息利用的影响。

核心思路:论文的核心思路是,视觉语言模型对视觉输入的关注程度受到问题框架的强烈影响。通过调整问题框架,可以引导模型更多地关注图像中的相关区域,从而提高视觉推理的准确性。论文提出了一种轻量级的提示调优方法,通过引入可学习的token,来鼓励模型学习更加鲁棒和视觉接地的注意力模式。

技术框架:论文的技术框架主要包括以下几个步骤:1) 使用不同的问题框架(开放式、多项选择、是/否)对视觉语言模型进行测试;2) 使用视觉注意力作为探针,量化不同框架下模型对图像的关注程度;3) 分析注意力分布与模型性能之间的关系;4) 提出基于可学习token的提示调优方法,调整模型的注意力模式;5) 评估提示调优方法在不同框架下的性能。

关键创新:论文最重要的技术创新点在于揭示了视觉语言模型对问题框架的敏感性,并提出了一种轻量级的提示调优方法来解决这个问题。与现有方法相比,该方法不需要对整个模型进行微调,只需要调整少量的可学习token,就可以显著提高模型的视觉 grounding 和跨框架性能。

关键设计:论文的关键设计包括:1) 使用视觉注意力作为探针,量化模型对图像的关注程度;2) 设计可学习的token,用于调整模型的注意力模式;3) 使用交叉熵损失函数来训练可学习的token,鼓励模型学习更加鲁棒和视觉接地的注意力模式。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,与开放式提问相比,多项选择和是/否等约束性框架会显著降低模型对图像上下文的注意力。通过引入可学习的token进行提示调优,可以显著提高模型的视觉 grounding 和跨框架性能。具体的性能提升数据在论文中有详细展示,表明该方法在多种视觉推理任务上都取得了显著的改进。

🎯 应用场景

该研究成果可应用于提升视觉语言模型在各种视觉推理任务中的性能,例如图像问答、视觉常识推理、机器人导航等。通过优化问题框架或使用提示调优方法,可以使模型更好地理解图像内容,从而提高其在实际应用中的可靠性和准确性。此外,该研究还可以帮助我们更好地理解视觉语言模型的内部机制,为未来的模型设计提供指导。

📄 摘要(原文)

Vision-Language Models (VLMs) have been shown to be blind, often underutilizing their visual inputs even on tasks that require visual reasoning. In this work, we demonstrate that VLMs are selectively blind. They modulate the amount of attention applied to visual inputs based on linguistic framing even when alternative framings demand identical visual reasoning. Using visual attention as a probe, we quantify how framing alters both the amount and distribution of attention over the image. Constrained framings, such as multiple choice and yes/no, induce substantially lower attention to image context compared to open-ended, reduce focus on task-relevant regions, and shift attention towards uninformative tokens. We further demonstrate that this attention misallocation is the principal cause of degraded accuracy and cross-framing inconsistency. Building on this mechanistic insight, we introduce a lightweight prompt-tuning method using learnable tokens that encourages the robust, visually grounded attention patterns observed in open-ended settings, improving visual grounding and improving performance across framings.