Are VLMs Seeing or Just Saying? Uncovering the Illusion of Visual Re-examination

📄 arXiv: 2605.15864v1 📥 PDF

作者: Chufan Shi, Cheng Yang, Yaokang Wu, Linhao Jin, Bo Shui, Taylor Berg-Kirkpatrick, Xuezhe Ma

分类: cs.CV, cs.CL

发布日期: 2026-05-15

备注: ICML 2026 Spotlight


💡 一句话要点

揭示视觉语言模型“视觉重检”的假象:模型只是在说,而非真正在看

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 视觉重检 图像交换 注意力机制 多模态推理

📋 核心要点

  1. 现有视觉语言模型在推理时常生成“视觉重检”语句,但其真实性存疑,模型可能只是在模仿文本模式。
  2. 论文提出VisualSwap框架,通过替换视觉上相似但语义不同的图像,来探测模型是否真正执行了视觉重检。
  3. 实验表明,现有VLMs在图像交换后准确率显著下降,表明模型并未真正进行视觉重检,而只是在“说”而非“看”。

📝 摘要(中文)

视觉语言模型(VLMs)在推理过程中经常会产生诸如“让我再检查一下图”之类的自我反思性陈述。这些陈述是否触发了真正的视觉重检,或者仅仅是学习到的文本模式?我们通过VisualSwap,一个图像交换探测框架来研究这个问题:在模型对图像进行推理后,我们将其替换为视觉上相似但语义上不同的图像,并测试模型是否注意到这种变化。我们引入了VS-Bench,一个包含800个图像对的数据集,这些图像对来自MathVista、MathVerse、MathVision和MMMU-Pro。对Qwen3-VL、Kimi-VL和ERNIE-VL的实验揭示了一个惊人的失败:模型绝大多数情况下都错过了交换,准确率下降高达60%。与直觉相反的是,具有“思考”能力的模型比其指令微调的对应模型更容易受到影响,并且模型规模的扩大并不能缓解这个问题。多轮用户指令可以恢复视觉基础,但连续生成过程中自我生成的反思性陈述则不能。注意力分析解释了原因:用户指令显著提高了对视觉token的注意力,而自我反思则不然。目前的VLMs在声称执行视觉重检时,倾向于“说”而不是真正“看”。我们的代码和数据集可在项目页面https://visualswap.github.io上找到。

🔬 方法详解

问题定义:论文旨在解决视觉语言模型(VLMs)在生成“视觉重检”相关语句时,是否真正执行了视觉信息的重新审视的问题。现有方法缺乏有效的评估手段,难以区分模型是真正基于视觉信息进行推理,还是仅仅学习了相关的文本模式。这种不确定性阻碍了对VLMs视觉理解能力的深入理解和改进。

核心思路:论文的核心思路是通过图像交换(Image Swap)的方式,在模型完成初始推理后,将原始图像替换为视觉上相似但语义上不同的图像,然后观察模型是否能够检测到这种变化。如果模型能够注意到图像的变化,则表明其确实依赖于视觉信息进行推理;反之,则表明模型可能只是在模仿文本模式,而没有真正进行视觉重检。

技术框架:论文提出了一个名为VisualSwap的图像交换探测框架。该框架包含以下主要步骤:1) 给定一个包含图像和问题的输入;2) 模型进行推理并生成答案;3) 在模型生成答案后,将原始图像替换为视觉上相似但语义上不同的图像;4) 再次询问模型相同的问题,并观察模型是否能够检测到图像的变化。此外,论文还构建了一个名为VS-Bench的数据集,包含800个图像对,这些图像对来自MathVista、MathVerse、MathVision和MMMU-Pro等多个视觉推理数据集。

关键创新:论文的关键创新在于提出了VisualSwap框架,这是一种新颖的评估VLMs视觉重检能力的方法。与传统的评估方法不同,VisualSwap通过主动干预视觉输入,来探测模型是否真正依赖于视觉信息进行推理。此外,论文还通过注意力分析,揭示了用户指令和自我反思语句对视觉token注意力的影响,从而解释了模型在不同情况下表现差异的原因。

关键设计:VS-Bench数据集的构建是关键设计之一,它保证了图像对在视觉上的相似性,同时在语义上存在差异,从而能够有效地探测模型是否真正关注视觉细节。此外,论文还分析了模型在不同情况下的注意力分布,具体来说,通过计算模型对图像中不同区域的注意力权重,来评估模型对视觉信息的关注程度。论文使用了Qwen3-VL, Kimi-VL, and ERNIE-VL等主流的视觉语言模型进行实验。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,主流VLMs在VisualSwap测试中表现不佳,准确率下降高达60%,表明模型并未真正进行视觉重检。更令人惊讶的是,具有“思考”能力的模型比指令微调的模型更容易受到图像交换的影响。注意力分析显示,用户指令能够显著提高模型对视觉token的注意力,而自我生成的反思性语句则不能。

🎯 应用场景

该研究成果可应用于评估和改进视觉语言模型的视觉理解能力,尤其是在需要视觉重检的场景下,例如视觉问答、图像描述和机器人导航等。通过提高模型对视觉信息的敏感度和准确性,可以提升模型在这些应用中的性能和可靠性,并为开发更智能、更可靠的多模态人工智能系统奠定基础。

📄 摘要(原文)

Vision-Language Models (VLMs) often produce self-reflective statements like "let me check the figure again" during reasoning. Do such statements trigger genuine visual re-examination, or are they merely learned textual patterns? We investigate this via VisualSwap, an image-swap probing framework: after a model reasons over an image, we replace it with a visually similar but semantically different one and test whether the model notices. We introduce VS-Bench, 800 image pairs curated from MathVista, MathVerse, MathVision, and MMMU-Pro. Experiments on Qwen3-VL, Kimi-VL, and ERNIE-VL reveal a striking failure: models overwhelmingly miss the swap, with accuracy dropping by up to 60%. Counterintuitively, thinking models are nearly 3x more vulnerable than their instructed counterparts, and scaling offers no mitigation. Multi-turn user instructions restore visual grounding, but self-generated reflective statements during continuous generation do not. Attention analysis explains why: user instructions substantially elevate attention to visual tokens, whereas self-reflection does not. Current VLMs tend to say rather than actually see when claiming to perform visual re-examination. Our code and dataset are available at the project page: https://visualswap.github.io