Vision-Language Introspection: Mitigating Overconfident Hallucinations in MLLMs via Interpretable Bi-Causal Steering

📄 arXiv: 2601.05159v1 📥 PDF

作者: Shuliang Liu, Songbo Yang, Dong Fang, Sihang Jia, Yuqi Tang, Lingfeng Su, Ruoshui Peng, Yibo Yan, Xin Zou, Xuming Hu

分类: cs.CV, cs.AI

发布日期: 2026-01-08


💡 一句话要点

提出Vision-Language Introspection,通过可解释的双向因果引导缓解多模态大语言模型中的幻觉问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 对象幻觉 可解释性 因果引导 属性内省 元认知 视觉语言理解

📋 核心要点

  1. 多模态大语言模型易产生幻觉,现有方法如对比解码和静态向量引导存在局限,无法有效解决语义错位和缺乏实例精确性的问题。
  2. Vision-Language Introspection (VLI) 模拟元认知自我纠正,通过属性内省诊断幻觉风险,并利用双向因果引导动态调节推理过程。
  3. VLI 在 MMHal-Bench 和 POPE 数据集上取得了显著的性能提升,有效降低了对象幻觉率并提高了准确率。

📝 摘要(中文)

多模态大语言模型中的对象幻觉严重损害了其可靠性,这通常源于认知内省的根本性失败,即模型盲目信任语言先验而非特定的视觉证据。现有的缓解措施仍然有限:对比解码方法只是表面上的操作,没有纠正内部语义错位;而当前的潜在引导方法依赖于缺乏实例特定精确性的静态向量。我们引入了Vision-Language Introspection (VLI),这是一个无需训练的推理框架,它模拟了一个元认知自我纠正过程。VLI首先执行属性内省,通过概率冲突检测来诊断幻觉风险,并定位因果视觉锚点。然后,它采用可解释的双向因果引导来主动调节推理过程,动态地将视觉证据与背景噪声隔离,同时通过自适应校准来消除盲目置信度。VLI在先进模型上实现了最先进的性能,在MMHal-Bench上将对象幻觉率降低了12.67%,并在POPE上将准确率提高了5.8%。

🔬 方法详解

问题定义:多模态大语言模型(MLLMs)在生成文本时,容易产生与图像内容不符的“幻觉”,即生成图像中不存在的对象或属性。现有方法,如对比解码,仅在表面上进行操作,无法纠正模型内部的语义错位。而基于潜在向量引导的方法,依赖于静态向量,缺乏对每个实例的精确控制,无法有效抑制幻觉。

核心思路:VLI的核心思路是模拟人类的元认知过程,让模型能够“反思”自身的推理过程,检测并纠正潜在的错误。具体来说,VLI首先通过“属性内省”来识别可能导致幻觉的视觉区域,然后通过“双向因果引导”来调整模型的推理过程,使其更加关注相关的视觉证据,从而减少幻觉的产生。

技术框架:VLI框架包含两个主要阶段:属性内省和双向因果引导。属性内省阶段,模型首先分析图像和文本描述,检测两者之间的冲突,并定位可能导致幻觉的视觉区域(即因果视觉锚点)。双向因果引导阶段,模型利用这些锚点来调整模型的推理过程,增强对相关视觉证据的关注,同时抑制对无关背景信息的依赖。

关键创新:VLI的关键创新在于其可解释的双向因果引导机制。与传统的静态向量引导方法不同,VLI能够根据每个实例的具体情况,动态地调整模型的推理过程。此外,VLI通过属性内省来识别潜在的幻觉风险,并利用这些信息来指导因果引导,从而提高了模型的准确性和可靠性。

关键设计:VLI使用概率冲突检测来量化属性内省阶段的幻觉风险。具体来说,模型计算图像和文本描述中每个对象的概率分布,并比较这些分布之间的差异。差异越大,幻觉的风险越高。在双向因果引导阶段,VLI使用一个可学习的权重来控制视觉证据对模型推理的影响。这个权重根据属性内省的结果动态调整,以增强对相关视觉证据的关注,同时抑制对无关背景信息的依赖。

📊 实验亮点

VLI在MMHal-Bench数据集上将对象幻觉率降低了12.67%,并在POPE数据集上将准确率提高了5.8%。这些结果表明,VLI能够有效地减少多模态大语言模型中的幻觉,并提高其性能。此外,VLI是一种无需训练的推理框架,可以方便地应用于各种现有的多模态大语言模型。

🎯 应用场景

该研究成果可应用于各种需要可靠多模态理解的场景,例如自动驾驶、医疗诊断、智能客服等。通过减少多模态大语言模型中的幻觉,可以提高这些应用的安全性和可靠性,并为用户提供更准确的信息和服务。未来,该技术有望进一步扩展到其他多模态任务,例如视频理解和语音识别。

📄 摘要(原文)

Object hallucination critically undermines the reliability of Multimodal Large Language Models, often stemming from a fundamental failure in cognitive introspection, where models blindly trust linguistic priors over specific visual evidence. Existing mitigations remain limited: contrastive decoding approaches operate superficially without rectifying internal semantic misalignments, while current latent steering methods rely on static vectors that lack instance-specific precision. We introduce Vision-Language Introspection (VLI), a training-free inference framework that simulates a metacognitive self-correction process. VLI first performs Attributive Introspection to diagnose hallucination risks via probabilistic conflict detection and localize the causal visual anchors. It then employs Interpretable Bi-Causal Steering to actively modulate the inference process, dynamically isolating visual evidence from background noise while neutralizing blind confidence through adaptive calibration. VLI achieves state-of-the-art performance on advanced models, reducing object hallucination rates by 12.67% on MMHal-Bench and improving accuracy by 5.8% on POPE.