Don't Blink: Evidence Collapse during Multimodal Reasoning
作者: Suresh Raghu, Satwik Pandey
分类: cs.AI
发布日期: 2026-04-07
💡 一句话要点
揭示多模态推理中证据崩塌现象,提出任务感知视觉否决策略
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态推理 视觉语言模型 证据崩塌 注意力机制 任务感知 不确定性估计 视觉否决
📋 核心要点
- 现有推理VLM存在“证据崩塌”问题,即推理过程视觉依据逐渐丧失,导致错误但自信的预测。
- 提出任务感知的多模态监控方法,利用熵-视觉交互模型识别危险区域,并采用视觉否决策略。
- 实验表明,该方法能有效降低风险,在视觉参考任务上提升性能,并避免在符号任务上的退化。
📝 摘要(中文)
本文揭示了推理型视觉语言模型(VLM)在推理过程中,精度提升的同时可能逐渐丧失视觉基础的现象,即“证据崩塌”。这导致模型在低熵预测时表现出高置信度但缺乏视觉依据,文本监控无法检测到这种失效模式。通过在MathVista、HallusionBench和MMMU_Pro数据集上评估三个推理VLM,发现证据崩塌普遍存在:模型对标注证据区域的注意力显著下降,通常损失超过一半的证据权重。虽然全响应熵是跨数据集迁移下最可靠的文本不确定性信号,但添加视觉特征(通过单一全局线性规则)是脆弱的,并且常常降低迁移性能。熵-视觉交互模型揭示了一种任务条件机制:低熵、视觉脱离的预测在持续视觉参考任务中是危险的,但在符号任务中是良性的。基于此,有针对性的视觉否决策略在90%覆盖率下,选择性地降低了高达1.9个百分点的风险,同时避免了在预期脱离情况下的性能下降。结果表明,任务感知的多模态监控对于在分布偏移下安全部署至关重要。
🔬 方法详解
问题定义:推理型视觉语言模型(VLM)在执行复杂推理任务时,往往需要依赖视觉信息作为证据。然而,现有的VLM在推理过程中可能出现“证据崩塌”现象,即模型逐渐忽略或丧失对关键视觉证据的关注,导致最终的预测结果缺乏视觉基础。这种现象使得模型在给出高置信度预测的同时,实际上是基于不完整的或错误的视觉信息,从而导致推理错误。现有的文本监控方法难以检测到这种失效模式,因为它们无法感知模型对视觉证据的依赖程度。
核心思路:本文的核心思路是建立一个任务感知的多模态监控机制,用于识别和缓解VLM推理过程中的证据崩塌问题。该机制的核心在于理解模型在不同任务类型下对视觉信息的依赖程度,并根据这种依赖程度来调整监控策略。具体来说,本文提出了一种熵-视觉交互模型,用于评估模型在给定任务和输入下的视觉参与度。该模型通过分析模型输出的熵值和对视觉区域的注意力分布,来判断模型是否在缺乏视觉证据的情况下给出了高置信度的预测。
技术框架:本文提出的方法主要包含以下几个阶段: 1. 数据收集与标注:收集包含视觉证据标注的多模态推理数据集,例如MathVista、HallusionBench和MMMU_Pro。 2. 模型训练与评估:训练推理型VLM,并在收集的数据集上进行评估,重点关注模型在推理过程中对视觉证据的利用情况。 3. 熵-视觉交互模型构建:构建熵-视觉交互模型,用于评估模型在给定任务和输入下的视觉参与度。该模型以模型输出的熵值和对视觉区域的注意力分布作为输入,输出一个视觉参与度评分。 4. 任务感知视觉否决策略:基于熵-视觉交互模型的输出,设计任务感知的视觉否决策略。该策略根据视觉参与度评分来决定是否否决模型的预测结果,从而避免模型在缺乏视觉证据的情况下给出错误的预测。
关键创新:本文最重要的技术创新点在于提出了熵-视觉交互模型和任务感知的视觉否决策略。熵-视觉交互模型能够有效地评估模型在推理过程中对视觉证据的依赖程度,从而识别出潜在的证据崩塌风险。任务感知的视觉否决策略能够根据任务类型和视觉参与度评分,有选择性地否决模型的预测结果,从而在降低风险的同时,避免对模型性能造成不必要的损害。
关键设计: * 熵-视觉交互模型:该模型采用线性模型,将全响应熵与视觉特征进行交互,学习一个任务相关的权重,用于评估视觉参与度。 * 视觉特征:使用模型对标注证据区域的注意力权重作为视觉特征,反映模型对视觉证据的关注程度。 * 视觉否决策略:当熵值较低且视觉参与度评分低于阈值时,否决模型的预测结果。阈值的设定需要根据具体任务和数据集进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,本文提出的方法能够有效降低推理型VLM的证据崩塌风险。在MathVista、HallusionBench和MMMU_Pro数据集上,任务感知的视觉否决策略在90%覆盖率下,选择性地降低了高达1.9个百分点的风险,同时避免了在预期脱离情况下的性能下降。这表明该方法能够在提高模型可靠性的同时,保持其在其他任务上的性能。
🎯 应用场景
该研究成果可应用于提升视觉语言模型的可靠性和安全性,尤其是在需要高度视觉推理的场景中,如自动驾驶、医疗诊断、智能客服等。通过监控模型对视觉证据的利用情况,可以有效避免模型在缺乏视觉基础的情况下给出错误的预测,从而提高系统的整体性能和安全性。未来,该方法可以进一步扩展到更复杂的任务和模型架构中。
📄 摘要(原文)
Reasoning VLMs can become more accurate while progressively losing visual grounding as they think. This creates task-conditional danger zones where low-entropy predictions are confident but ungrounded, a failure mode text-only monitoring cannot detect. Evaluating three reasoning VLMs on MathVista, HallusionBench, and MMMU_Pro, we find a pervasive evidence-collapse phenomenon: attention to annotated evidence regions drops substantially, often losing over half of evidence mass, as reasoning unfolds. Full-response entropy is the most reliable text-only uncertainty signal under cross-dataset transfer, yet adding vision features with a single global linear rule is brittle and often degrades transfer. An entropy-vision interaction model reveals a task-conditional regime: lowentropy, visually disengaged predictions are hazardous on sustained visual-reference tasks but benign on symbolic tasks. Using this structure, a targeted vision veto reduces selective risk by up to 1.9 percentage points at 90% coverage, while avoiding degradations where disengagement is expected. The results support task-aware multimodal monitoring for safe deployment under distribution shift.