Tinted Frames: Question Framing Blinds Vision-Language Models
作者: Wan-Cyuan Fan, Jiayun Luo, Declan Kutscher, Leonid Sigal, Ritwik Gupta
分类: cs.CV
发布日期: 2026-03-19
备注: Preprint. Project page: https://davidhalladay.github.io/tinted_frames_demo/
💡 一句话要点
揭示视觉语言模型对问题框架的敏感性,并提出提示调优方法以提升视觉关注。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 视觉注意力 问题框架 提示调优 视觉推理
📋 核心要点
- 现有视觉语言模型在视觉推理任务中存在盲视问题,未能充分利用视觉输入。
- 论文提出,模型对视觉输入的关注程度受问题框架影响,即使视觉推理需求相同。
- 通过提示调优,鼓励模型学习鲁棒的视觉关注模式,提升视觉接地和跨框架性能。
📝 摘要(中文)
本文揭示了视觉语言模型(VLM)的选择性盲视现象,即模型对视觉输入的关注程度会受到语言框架的影响,即使不同的框架需要相同的视觉推理。通过视觉注意力作为探针,量化了框架如何改变图像上的注意力和分布。与开放式提问相比,多项选择和是/否等约束性框架会显著降低对图像上下文的关注,减少对任务相关区域的关注,并将注意力转移到无信息token上。进一步证明,这种注意力错配是准确率下降和跨框架不一致的主要原因。基于此,提出了一种轻量级的提示调优方法,使用可学习的token来鼓励在开放式设置中观察到的鲁棒、视觉接地的注意力模式,从而提高视觉接地并改善跨框架的性能。
🔬 方法详解
问题定义:视觉语言模型在处理视觉推理任务时,常常未能充分利用视觉信息,表现出“盲视”现象。现有方法通常关注于提升模型的视觉理解能力,但忽略了语言框架对模型视觉关注的影响。论文关注的问题是:不同的语言框架(例如,开放式提问、多项选择、是/否问题)如何影响视觉语言模型对视觉信息的利用,以及这种影响如何导致性能下降和跨框架不一致性。
核心思路:论文的核心思路是,视觉语言模型对视觉输入的关注程度受到语言框架的强烈影响。即使不同的语言框架需要相同的视觉推理,模型也会根据框架的不同,调整对视觉信息的关注程度。通过调整语言框架,可以引导模型更加关注相关的视觉信息,从而提升性能。
技术框架:论文的技术框架主要包括以下几个部分:1) 使用不同的语言框架(开放式提问、多项选择、是/否问题)对视觉语言模型进行提问;2) 使用视觉注意力作为探针,量化不同框架下模型对图像的关注程度和分布;3) 分析注意力模式与模型性能之间的关系;4) 提出一种轻量级的提示调优方法,通过可学习的token来鼓励模型学习鲁棒的视觉关注模式。
关键创新:论文最重要的技术创新点在于,揭示了视觉语言模型对问题框架的敏感性,并证明了这种敏感性是导致模型性能下降和跨框架不一致性的主要原因。此外,论文提出的提示调优方法,通过可学习的token来引导模型学习鲁棒的视觉关注模式,是一种简单有效的提升视觉接地和跨框架性能的方法。
关键设计:论文的关键设计包括:1) 使用视觉注意力作为探针,量化模型对图像的关注程度和分布;2) 设计了一种轻量级的提示调优方法,使用可学习的token来鼓励模型学习鲁棒的视觉关注模式。具体来说,该方法在输入提示中添加一组可学习的token,并通过训练来优化这些token,使得模型在处理不同框架的问题时,都能够保持一致的视觉关注模式。损失函数的设计目标是鼓励模型学习与开放式提问相似的视觉关注模式。
🖼️ 关键图片
📊 实验亮点
实验结果表明,约束性框架(如多项选择和是/否问题)会显著降低模型对图像上下文的关注,减少对任务相关区域的关注,并将注意力转移到无信息token上。通过提出的提示调优方法,可以有效地改善模型的视觉接地,并提高跨框架的性能。具体的性能提升数据在论文中给出,相较于基线模型,该方法在多个数据集上取得了显著的性能提升。
🎯 应用场景
该研究成果可应用于提升视觉语言模型在各种实际场景中的性能,例如图像问答、视觉推理、机器人导航等。通过优化问题框架或使用提示调优方法,可以使模型更加有效地利用视觉信息,从而提高任务的准确性和鲁棒性。此外,该研究还可以帮助我们更好地理解视觉语言模型的工作机制,为未来的模型设计提供指导。
📄 摘要(原文)
Vision-Language Models (VLMs) have been shown to be blind, often underutilizing their visual inputs even on tasks that require visual reasoning. In this work, we demonstrate that VLMs are selectively blind. They modulate the amount of attention applied to visual inputs based on linguistic framing even when alternative framings demand identical visual reasoning. Using visual attention as a probe, we quantify how framing alters both the amount and distribution of attention over the image. Constrained framings, such as multiple choice and yes/no, induce substantially lower attention to image context compared to open-ended, reduce focus on task-relevant regions, and shift attention towards uninformative tokens. We further demonstrate that this attention misallocation is the principal cause of degraded accuracy and cross-framing inconsistency. Building on this mechanistic insight, we introduce a lightweight prompt-tuning method using learnable tokens that encourages the robust, visually grounded attention patterns observed in open-ended settings, improving visual grounding and improving performance across framings.