Beyond Shortcuts: Mitigating Visual Illusions in Frozen VLMs via Qualitative Reasoning

📄 arXiv: 2604.26250v1 📥 PDF

作者: Hao Guo, Fei Wang, Junjie Chen, Yiqi Nie, Jiaqi Zhao, Qiankun Li, Subin Huang

分类: cs.CV

发布日期: 2026-04-29

备注: 4 pages, 2 figures, and 1 table. This is a methodology paper for the DataCV 2026 Challenge (CVPR Workshops), Task 1, where our method ranked 2nd


💡 一句话要点

提出SQI框架,通过定性推理增强冻结VLM在视觉错觉场景下的感知鲁棒性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 视觉错觉 定性推理 鲁棒性 视觉感知

📋 核心要点

  1. 现有VLM在视觉错觉场景中表现出脆弱性,易受语言先验和记忆原型的影响,忽略直接视觉证据。
  2. 提出结构化定性推理(SQI)框架,通过公理约束注入、分层场景分解和反事实自我验证增强视觉基础。
  3. SQI在DataCV 2026挑战赛中获得第二名,显著提高了各种错觉类别的准确性,且无需模型微调。

📝 摘要(中文)

视觉-语言模型(VLM)在通用视觉任务中表现出色,但在面对光学错觉时,其感知鲁棒性仍然很脆弱。这种失败通常归因于模型优先考虑语言先验和记忆原型,而非直接的视觉证据。本文提出了结构化定性推理(SQI),这是一个无需训练、以数据为中心的框架,旨在增强冻结VLM中的视觉基础。SQI通过三个系统模块解决感知异常:(1) 公理约束注入,抑制错误的度量估计和定量幻觉;(2) 分层场景分解,将目标视觉流形与复杂的背景干扰分离;(3) 反事实自我验证,一种对抗性推理步骤,减轻确认偏差。通过在推理时协调这些定性约束,SQI有效地将高层语言推理与低层视觉感知对齐。该框架在DataCV 2026挑战赛(任务一:经典错觉理解)中获得第二名。实验结果表明,SQI不仅显著提高了各种错觉类别的准确性,而且提供了卓越的诊断可解释性,无需任何模型微调。该成果强调了结构化定性基础作为开发下一代抗错觉视觉-语言系统的强大范例的潜力。

🔬 方法详解

问题定义:VLM在处理视觉错觉时,容易受到语言先验和记忆的影响,导致对视觉信息的错误理解。现有方法难以有效抑制这种偏差,使得模型在视觉感知上不够鲁棒。论文旨在解决VLM在视觉错觉场景下的感知鲁棒性问题,提高模型对真实视觉信息的依赖。

核心思路:论文的核心思路是通过引入结构化的定性推理,在推理阶段对VLM的输出进行约束和校正。通过将高层语言推理与低层视觉感知对齐,减少模型对语言先验的依赖,增强对视觉信息的敏感性。这种方法无需对VLM进行微调,可以直接应用于现有的冻结VLM。

技术框架:SQI框架包含三个主要模块:(1) 公理约束注入:通过注入公理约束,抑制错误的度量估计和定量幻觉,确保模型输出的合理性。(2) 分层场景分解:将复杂的场景分解为多个层次,从而将目标视觉流形与复杂的背景干扰分离,提高模型对目标对象的关注度。(3) 反事实自我验证:通过对抗性推理步骤,减轻确认偏差,促使模型重新审视其初始判断,并根据视觉证据进行校正。

关键创新:SQI的关键创新在于其结构化的定性推理方法,它不是通过训练数据来修正模型的偏差,而是在推理阶段通过一系列约束和验证步骤来增强模型的视觉感知能力。这种方法具有很强的通用性和可解释性,可以应用于各种不同的VLM和视觉错觉场景。与现有方法相比,SQI无需模型微调,可以直接应用于冻结的VLM,降低了使用成本。

关键设计:公理约束注入模块需要定义合适的公理约束,例如,对于长度比较的错觉,可以约束模型输出的长度比例必须在一定范围内。分层场景分解模块需要选择合适的分解策略,例如,可以使用目标检测算法来识别场景中的目标对象,并将其与背景分离。反事实自我验证模块需要设计合适的对抗性推理步骤,例如,可以生成一些与初始判断相反的假设,并评估这些假设的可能性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

SQI框架在DataCV 2026挑战赛(任务一:经典错觉理解)中获得第二名,证明了其有效性。实验结果表明,SQI显著提高了各种错觉类别的准确性,并且提供了卓越的诊断可解释性,无需任何模型微调。具体性能数据未知,但结果表明SQI在不修改模型参数的情况下,有效提升了VLM在视觉错觉场景下的表现。

🎯 应用场景

该研究成果可应用于增强VLM在各种视觉任务中的鲁棒性,尤其是在需要精确视觉感知的场景中,例如自动驾驶、医学图像分析和机器人导航。通过提高VLM对视觉错觉的抵抗能力,可以减少误判和错误决策,提高系统的安全性和可靠性。未来,该方法可以扩展到其他类型的视觉挑战,例如对抗性攻击和领域泛化。

📄 摘要(原文)

While Vision-Language Models (VLMs) have achieved state-of-the-art performance in general visual tasks, their perceptual robustness remains remarkably brittle when confronted with optical illusions. These failures are often attributed to shortcut heuristics, where models prioritize linguistic priors and memorized prototypes over direct visual evidence. In this work, we propose Structured Qualitative Inference (SQI), a training-free, data-centric framework designed to fortify visual grounding in frozen VLMs. SQI addresses perceptual anomalies through three systematic modules: (1) Axiomatic Constraint Injection, which suppresses erroneous metric estimations and quantitative hallucinations; (2) Hierarchical Scene Decomposition, which decouples target visual manifolds from complex background distractors; and (3) Counterfactual Self-Verification, an adversarial reasoning step that mitigates confirmation bias. By orchestrating these qualitative constraints at inference time, SQI effectively aligns high-level linguistic reasoning with low-level visual perception. Our framework was evaluated on the DataCV 2026 Challenge (Task I: Classic Illusion Understanding), where it ranked 2nd place overall. Experimental results demonstrate that SQI not only significantly enhances accuracy across diverse illusion categories but also provides superior diagnostic interpretability without any model fine-tuning. Our success underscores the potential of structured qualitative grounding as a robust paradigm for developing next-generation, illusion-resistant vision-language systems.