Are VLMs Seeing or Just Saying? Uncovering the Illusion of Visual Re-examination

作者: Chufan Shi, Cheng Yang, Yaokang Wu, Linhao Jin, Bo Shui, Taylor Berg-Kirkpatrick, Xuezhe Ma

分类: cs.CV, cs.CL

发布日期: 2026-05-15

备注: ICML 2026 Spotlight

💡 一句话要点

揭示视觉语言模型“视觉重检”的假象：模型只是在说，而非真正在看

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 视觉重检 图像交换 注意力机制 多模态推理

📋 核心要点

现有视觉语言模型在推理时常生成“视觉重检”语句，但其真实性存疑，模型可能只是在模仿文本模式。
论文提出VisualSwap框架，通过替换视觉上相似但语义不同的图像，来探测模型是否真正执行了视觉重检。
实验表明，现有VLMs在图像交换后准确率显著下降，表明模型并未真正进行视觉重检，而只是在“说”而非“看”。

📝 摘要（中文）

视觉语言模型(VLMs)在推理过程中经常会产生诸如“让我再检查一下图”之类的自我反思性陈述。这些陈述是否触发了真正的视觉重检，或者仅仅是学习到的文本模式？我们通过VisualSwap，一个图像交换探测框架来研究这个问题：在模型对图像进行推理后，我们将其替换为视觉上相似但语义上不同的图像，并测试模型是否注意到这种变化。我们引入了VS-Bench，一个包含800个图像对的数据集，这些图像对来自MathVista、MathVerse、MathVision和MMMU-Pro。对Qwen3-VL、Kimi-VL和ERNIE-VL的实验揭示了一个惊人的失败：模型绝大多数情况下都错过了交换，准确率下降高达60%。与直觉相反的是，具有“思考”能力的模型比其指令微调的对应模型更容易受到影响，并且模型规模的扩大并不能缓解这个问题。多轮用户指令可以恢复视觉基础，但连续生成过程中自我生成的反思性陈述则不能。注意力分析解释了原因：用户指令显著提高了对视觉token的注意力，而自我反思则不然。目前的VLMs在声称执行视觉重检时，倾向于“说”而不是真正“看”。我们的代码和数据集可在项目页面https://visualswap.github.io上找到。

🔬 方法详解

问题定义：论文旨在解决视觉语言模型（VLMs）在生成“视觉重检”相关语句时，是否真正执行了视觉信息的重新审视的问题。现有方法缺乏有效的评估手段，难以区分模型是真正基于视觉信息进行推理，还是仅仅学习了相关的文本模式。这种不确定性阻碍了对VLMs视觉理解能力的深入理解和改进。

核心思路：论文的核心思路是通过图像交换（Image Swap）的方式，在模型完成初始推理后，将原始图像替换为视觉上相似但语义上不同的图像，然后观察模型是否能够检测到这种变化。如果模型能够注意到图像的变化，则表明其确实依赖于视觉信息进行推理；反之，则表明模型可能只是在模仿文本模式，而没有真正进行视觉重检。

技术框架：论文提出了一个名为VisualSwap的图像交换探测框架。该框架包含以下主要步骤：1) 给定一个包含图像和问题的输入；2) 模型进行推理并生成答案；3) 在模型生成答案后，将原始图像替换为视觉上相似但语义上不同的图像；4) 再次询问模型相同的问题，并观察模型是否能够检测到图像的变化。此外，论文还构建了一个名为VS-Bench的数据集，包含800个图像对，这些图像对来自MathVista、MathVerse、MathVision和MMMU-Pro等多个视觉推理数据集。

关键创新：论文的关键创新在于提出了VisualSwap框架，这是一种新颖的评估VLMs视觉重检能力的方法。与传统的评估方法不同，VisualSwap通过主动干预视觉输入，来探测模型是否真正依赖于视觉信息进行推理。此外，论文还通过注意力分析，揭示了用户指令和自我反思语句对视觉token注意力的影响，从而解释了模型在不同情况下表现差异的原因。

关键设计：VS-Bench数据集的构建是关键设计之一，它保证了图像对在视觉上的相似性，同时在语义上存在差异，从而能够有效地探测模型是否真正关注视觉细节。此外，论文还分析了模型在不同情况下的注意力分布，具体来说，通过计算模型对图像中不同区域的注意力权重，来评估模型对视觉信息的关注程度。论文使用了Qwen3-VL, Kimi-VL, and ERNIE-VL等主流的视觉语言模型进行实验。

🖼️ 关键图片

📊 实验亮点

实验结果表明，主流VLMs在VisualSwap测试中表现不佳，准确率下降高达60%，表明模型并未真正进行视觉重检。更令人惊讶的是，具有“思考”能力的模型比指令微调的模型更容易受到图像交换的影响。注意力分析显示，用户指令能够显著提高模型对视觉token的注意力，而自我生成的反思性语句则不能。

🎯 应用场景

该研究成果可应用于评估和改进视觉语言模型的视觉理解能力，尤其是在需要视觉重检的场景下，例如视觉问答、图像描述和机器人导航等。通过提高模型对视觉信息的敏感度和准确性，可以提升模型在这些应用中的性能和可靠性，并为开发更智能、更可靠的多模态人工智能系统奠定基础。

📄 摘要（原文）

Vision-Language Models (VLMs) often produce self-reflective statements like "let me check the figure again" during reasoning. Do such statements trigger genuine visual re-examination, or are they merely learned textual patterns? We investigate this via VisualSwap, an image-swap probing framework: after a model reasons over an image, we replace it with a visually similar but semantically different one and test whether the model notices. We introduce VS-Bench, 800 image pairs curated from MathVista, MathVerse, MathVision, and MMMU-Pro. Experiments on Qwen3-VL, Kimi-VL, and ERNIE-VL reveal a striking failure: models overwhelmingly miss the swap, with accuracy dropping by up to 60%. Counterintuitively, thinking models are nearly 3x more vulnerable than their instructed counterparts, and scaling offers no mitigation. Multi-turn user instructions restore visual grounding, but self-generated reflective statements during continuous generation do not. Attention analysis explains why: user instructions substantially elevate attention to visual tokens, whereas self-reflection does not. Current VLMs tend to say rather than actually see when claiming to perform visual re-examination. Our code and dataset are available at the project page: https://visualswap.github.io

Are VLMs Seeing or Just Saying? Uncovering the Illusion of Visual Re-examination

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理