Seeing the Evidence, Missing the Answer: Tool-Guided Vision-Language Models on Visual Illusions

📄 arXiv: 2603.29428v1 📥 PDF

作者: Xuesong Wang, Harry Wang

分类: cs.CV

发布日期: 2026-03-31

备注: CVPR 2026 DataCV Workshop, code: https://github.com/Davidxswang/cvpr_2026_datacv_submission


💡 一句话要点

提出工具引导的视觉-语言模型框架,解决VLM在视觉错觉识别中的系统性偏差问题。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 视觉错觉 视觉-语言模型 工具引导 图像操作 推理框架

📋 核心要点

  1. 现有视觉-语言模型在处理视觉错觉时存在系统性偏差,倾向于错误地将错觉判断为真实。
  2. 提出一种工具引导的推理框架,通过赋予VLM图像操作工具和错觉类型路由,提升其识别能力。
  3. 实验表明,该框架在结构上不熟悉的错觉变体上表现出强大的泛化能力,且无需模型训练。

📝 摘要(中文)

视觉-语言模型(VLM)在面对经典光学错觉时表现出系统性偏差:它们压倒性地将错觉预测为“真实”,而不管图像是否经过反事实修改。本文提出了一个工具引导的推理框架,用于DataCV 2026挑战赛(任务I和II),该框架无需任何模型训练即可解决此问题。一个现成的视觉-语言模型被赋予一小组通用图像操作工具:线条绘制、区域裁剪、并排比较和通道隔离,以及一个错觉类型路由系统提示,该提示规定了每种感知问题类别应调用哪些工具。至关重要的是,每个工具调用都会生成一个新的、不可变的图像资源,并附加到持久注册表中,因此模型可以在其推理链中引用和组合任何先前的注释视图。这种通用工具加路由的设计,而不是硬编码特定于错觉的模块,产生了强大的跨结构泛化:性能从验证集到包含结构上不熟悉的错觉变体的测试集(例如,从垂直到水平堆叠的马赫带)保持一致。我们进一步报告了三个经验观察,我们认为这些观察结果值得进一步研究:(i)可能源于不平衡错觉训练数据的强烈的正向检测偏差,(ii)像素精确的空间推理与对自我生成的注释的逻辑推理之间显着的解离,以及(iii)加剧误报的对图像压缩伪影的显着敏感性。

🔬 方法详解

问题定义:现有视觉-语言模型在处理视觉错觉时,存在严重的系统性偏差,容易将错觉判断为“真实”,即使图像经过修改以消除错觉。这种偏差可能是由于训练数据不平衡或模型缺乏对图像底层结构的理解造成的。现有方法通常依赖于特定于错觉的模块,泛化能力较差。

核心思路:本文的核心思路是赋予视觉-语言模型(VLM)一组通用的图像操作工具,并结合错觉类型路由系统,使其能够通过交互式地探索和分析图像来识别错觉。通过这种方式,模型可以像人类一样,利用工具来验证其感知,从而减少对错觉的误判。

技术框架:该框架包含以下几个主要模块:1) 视觉-语言模型:使用现成的VLM作为推理引擎。2) 图像操作工具:提供一组通用的图像操作工具,包括线条绘制、区域裁剪、并排比较和通道隔离。3) 错觉类型路由系统:根据不同的错觉类型,指导模型选择合适的工具进行分析。4) 图像资源注册表:记录每次工具调用生成的新的、不可变的图像资源,供模型后续推理使用。整个流程是迭代式的,VLM根据当前状态选择工具,生成新的图像资源,并更新其推理过程。

关键创新:该方法的关键创新在于其通用性和可解释性。与以往针对特定错觉设计的模块不同,该方法使用通用的图像操作工具,可以处理各种类型的视觉错觉。此外,通过记录每次工具调用的结果,可以清晰地追踪模型的推理过程,提高模型的可解释性。

关键设计:错觉类型路由系统是关键设计之一,它根据不同的错觉类型,指导模型选择合适的工具。例如,对于大小错觉,可以使用区域裁剪和并排比较工具;对于颜色错觉,可以使用通道隔离工具。此外,图像资源注册表的设计也很重要,它保证了模型可以随时访问之前的推理结果,从而进行更复杂的推理。

📊 实验亮点

实验结果表明,该框架在DataCV 2026挑战赛的测试集上表现出强大的跨结构泛化能力,即使面对结构上不熟悉的错觉变体,也能保持稳定的性能。该方法无需任何模型训练,即可显著提升VLM在视觉错觉识别中的准确率。

🎯 应用场景

该研究成果可应用于提升视觉-语言模型在复杂视觉场景下的理解能力,例如自动驾驶、医学图像分析等领域。通过赋予模型更强的交互式探索能力,可以提高其对图像中细微差异的感知能力,从而减少误判和错误决策。

📄 摘要(原文)

Vision-language models (VLMs) exhibit a systematic bias when confronted with classic optical illusions: they overwhelmingly predict the illusion as "real" regardless of whether the image has been counterfactually modified. We present a tool-guided inference framework for the DataCV 2026 Challenge (Tasks I and II) that addresses this failure mode without any model training. An off-the-shelf vision-language model is given access to a small set of generic image manipulation tools: line drawing, region cropping, side-by-side comparison, and channel isolation, together with an illusion-type-routing system prompt that prescribes which tools to invoke for each perceptual question category. Critically, every tool call produces a new, immutable image resource appended to a persistent registry, so the model can reference and compose any prior annotated view throughout its reasoning chain. Rather than hard-coding illusion-specific modules, this generic-tool-plus-routing design yields strong cross-structural generalization: performance remained consistent from the validation set to a test set containing structurally unfamiliar illusion variants (e.g., Mach Bands rotated from vertical to horizontal stacking). We further report three empirical observations that we believe warrant additional investigation: (i) a strong positive-detection bias likely rooted in imbalanced illusion training data, (ii) a striking dissociation between pixel-accurate spatial reasoning and logical inference over self-generated annotations, and (iii) pronounced sensitivity to image compression artifacts that compounds false positives.