Vision-Language Introspection: Mitigating Overconfident Hallucinations in MLLMs via Interpretable Bi-Causal Steering

作者: Shuliang Liu, Songbo Yang, Dong Fang, Sihang Jia, Yuqi Tang, Lingfeng Su, Ruoshui Peng, Yibo Yan, Xin Zou, Xuming Hu

分类: cs.CV, cs.AI

发布日期: 2026-01-08

💡 一句话要点

提出Vision-Language Introspection，通过可解释的双向因果引导缓解多模态大语言模型中的幻觉问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 对象幻觉 可解释性 因果引导 属性内省 元认知 视觉语言理解

📋 核心要点

多模态大语言模型易产生幻觉，现有方法如对比解码和静态向量引导存在局限，无法有效解决语义错位和缺乏实例精确性的问题。
Vision-Language Introspection (VLI) 模拟元认知自我纠正，通过属性内省诊断幻觉风险，并利用双向因果引导动态调节推理过程。
VLI 在 MMHal-Bench 和 POPE 数据集上取得了显著的性能提升，有效降低了对象幻觉率并提高了准确率。

📝 摘要（中文）

多模态大语言模型中的对象幻觉严重损害了其可靠性，这通常源于认知内省的根本性失败，即模型盲目信任语言先验而非特定的视觉证据。现有的缓解措施仍然有限：对比解码方法只是表面上的操作，没有纠正内部语义错位；而当前的潜在引导方法依赖于缺乏实例特定精确性的静态向量。我们引入了Vision-Language Introspection (VLI)，这是一个无需训练的推理框架，它模拟了一个元认知自我纠正过程。VLI首先执行属性内省，通过概率冲突检测来诊断幻觉风险，并定位因果视觉锚点。然后，它采用可解释的双向因果引导来主动调节推理过程，动态地将视觉证据与背景噪声隔离，同时通过自适应校准来消除盲目置信度。VLI在先进模型上实现了最先进的性能，在MMHal-Bench上将对象幻觉率降低了12.67%，并在POPE上将准确率提高了5.8%。

🔬 方法详解

问题定义：多模态大语言模型（MLLMs）在生成文本时，容易产生与图像内容不符的“幻觉”，即生成图像中不存在的对象或属性。现有方法，如对比解码，仅在表面上进行操作，无法纠正模型内部的语义错位。而基于潜在向量引导的方法，依赖于静态向量，缺乏对每个实例的精确控制，无法有效抑制幻觉。

核心思路：VLI的核心思路是模拟人类的元认知过程，让模型能够“反思”自身的推理过程，检测并纠正潜在的错误。具体来说，VLI首先通过“属性内省”来识别可能导致幻觉的视觉区域，然后通过“双向因果引导”来调整模型的推理过程，使其更加关注相关的视觉证据，从而减少幻觉的产生。

技术框架：VLI框架包含两个主要阶段：属性内省和双向因果引导。属性内省阶段，模型首先分析图像和文本描述，检测两者之间的冲突，并定位可能导致幻觉的视觉区域（即因果视觉锚点）。双向因果引导阶段，模型利用这些锚点来调整模型的推理过程，增强对相关视觉证据的关注，同时抑制对无关背景信息的依赖。

关键创新：VLI的关键创新在于其可解释的双向因果引导机制。与传统的静态向量引导方法不同，VLI能够根据每个实例的具体情况，动态地调整模型的推理过程。此外，VLI通过属性内省来识别潜在的幻觉风险，并利用这些信息来指导因果引导，从而提高了模型的准确性和可靠性。

关键设计：VLI使用概率冲突检测来量化属性内省阶段的幻觉风险。具体来说，模型计算图像和文本描述中每个对象的概率分布，并比较这些分布之间的差异。差异越大，幻觉的风险越高。在双向因果引导阶段，VLI使用一个可学习的权重来控制视觉证据对模型推理的影响。这个权重根据属性内省的结果动态调整，以增强对相关视觉证据的关注，同时抑制对无关背景信息的依赖。

📊 实验亮点

VLI在MMHal-Bench数据集上将对象幻觉率降低了12.67%，并在POPE数据集上将准确率提高了5.8%。这些结果表明，VLI能够有效地减少多模态大语言模型中的幻觉，并提高其性能。此外，VLI是一种无需训练的推理框架，可以方便地应用于各种现有的多模态大语言模型。

🎯 应用场景

该研究成果可应用于各种需要可靠多模态理解的场景，例如自动驾驶、医疗诊断、智能客服等。通过减少多模态大语言模型中的幻觉，可以提高这些应用的安全性和可靠性，并为用户提供更准确的信息和服务。未来，该技术有望进一步扩展到其他多模态任务，例如视频理解和语音识别。

📄 摘要（原文）

Object hallucination critically undermines the reliability of Multimodal Large Language Models, often stemming from a fundamental failure in cognitive introspection, where models blindly trust linguistic priors over specific visual evidence. Existing mitigations remain limited: contrastive decoding approaches operate superficially without rectifying internal semantic misalignments, while current latent steering methods rely on static vectors that lack instance-specific precision. We introduce Vision-Language Introspection (VLI), a training-free inference framework that simulates a metacognitive self-correction process. VLI first performs Attributive Introspection to diagnose hallucination risks via probabilistic conflict detection and localize the causal visual anchors. It then employs Interpretable Bi-Causal Steering to actively modulate the inference process, dynamically isolating visual evidence from background noise while neutralizing blind confidence through adaptive calibration. VLI achieves state-of-the-art performance on advanced models, reducing object hallucination rates by 12.67% on MMHal-Bench and improving accuracy by 5.8% on POPE.

Vision-Language Introspection: Mitigating Overconfident Hallucinations in MLLMs via Interpretable Bi-Causal Steering

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理