Vision-Language Introspection: Mitigating Overconfident Hallucinations in MLLMs via Interpretable Bi-Causal Steering
作者: Shuliang Liu, Songbo Yang, Dong Fang, Sihang Jia, Yuqi Tang, Lingfeng Su, Ruoshui Peng, Yibo Yan, Xin Zou, Xuming Hu
分类: cs.CV, cs.AI
发布日期: 2026-01-08
💡 一句话要点
提出Vision-Language Introspection,通过可解释的双向因果引导缓解多模态大语言模型中的幻觉问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 幻觉缓解 认知内省 因果引导 可解释性 视觉语言 推理框架
📋 核心要点
- 多模态大语言模型易产生幻觉,现有方法如对比解码和静态向量引导无法有效解决内部语义错位问题。
- VLI框架模拟元认知自我纠正过程,通过属性内省诊断幻觉风险,并利用双向因果引导动态调节推理。
- 实验表明,VLI在MMHal-Bench上降低了12.67%的幻觉率,在POPE上提高了5.8%的准确率,性能优异。
📝 摘要(中文)
多模态大语言模型中的对象幻觉严重损害了其可靠性,这通常源于认知内省的根本性失败,即模型盲目信任语言先验而非特定的视觉证据。现有的缓解措施仍然有限:对比解码方法只是表面上的操作,没有纠正内部语义错位,而当前的潜在引导方法依赖于缺乏实例特定精确性的静态向量。我们引入了Vision-Language Introspection (VLI),这是一个无需训练的推理框架,它模拟了一个元认知自我纠正过程。VLI首先执行属性内省,通过概率冲突检测来诊断幻觉风险,并定位因果视觉锚点。然后,它采用可解释的双向因果引导来主动调节推理过程,动态地将视觉证据与背景噪声隔离,同时通过自适应校准来消除盲目置信度。VLI在先进模型上实现了最先进的性能,在MMHal-Bench上将对象幻觉率降低了12.67%,并在POPE上将准确率提高了5.8%。
🔬 方法详解
问题定义:多模态大语言模型(MLLMs)在理解图像和文本的组合时,容易产生“幻觉”,即生成与图像内容不符的信息。现有的缓解方法,例如对比解码,通常只关注表面现象,无法从根本上解决模型内部语义对齐的问题。此外,基于潜在空间引导的方法依赖于静态向量,缺乏对特定实例的精确控制,难以有效消除幻觉。
核心思路:VLI的核心思路是模拟人类的元认知过程,让模型能够“反思”自己的推理过程,检测并纠正潜在的错误。具体来说,VLI首先通过“属性内省”来识别可能产生幻觉的区域,然后利用“双向因果引导”来调整模型的推理过程,使其更加关注相关的视觉证据,从而减少幻觉的产生。
技术框架:VLI框架主要包含两个阶段:属性内省(Attributive Introspection)和可解释的双向因果引导(Interpretable Bi-Causal Steering)。在属性内省阶段,模型通过概率冲突检测来诊断幻觉风险,并定位因果视觉锚点。在双向因果引导阶段,模型主动调节推理过程,动态地将视觉证据与背景噪声隔离,并通过自适应校准来消除盲目置信度。整个过程无需额外的训练。
关键创新:VLI的关键创新在于其模拟了元认知过程,使得模型能够进行自我纠正。与现有方法相比,VLI不是简单地调整模型的输出,而是深入到模型的内部推理过程,通过识别和纠正语义错位来减少幻觉。此外,VLI的双向因果引导能够动态地调整模型的注意力,使其更加关注相关的视觉证据,从而提高模型的准确性。
关键设计:VLI的关键设计包括:1) 属性内省阶段的概率冲突检测机制,用于识别潜在的幻觉区域;2) 双向因果引导阶段的动态注意力调整机制,用于增强模型对相关视觉证据的关注;3) 自适应校准机制,用于消除模型的盲目置信度。具体的参数设置和网络结构细节在论文中进行了详细描述。
📊 实验亮点
VLI在MMHal-Bench和POPE数据集上取得了显著的性能提升。在MMHal-Bench上,VLI将对象幻觉率降低了12.67%,表明其能够有效减少模型产生的幻觉。在POPE数据集上,VLI将准确率提高了5.8%,表明其能够提高模型的整体性能。这些实验结果证明了VLI的有效性和优越性。
🎯 应用场景
VLI技术可广泛应用于需要高度可靠性的多模态大语言模型应用中,例如医疗诊断、自动驾驶、智能客服等领域。通过减少幻觉,VLI可以提高模型的准确性和可靠性,从而增强用户对模型的信任度。未来,VLI还可以与其他技术相结合,例如知识图谱、强化学习等,进一步提高模型的性能和泛化能力。
📄 摘要(原文)
Object hallucination critically undermines the reliability of Multimodal Large Language Models, often stemming from a fundamental failure in cognitive introspection, where models blindly trust linguistic priors over specific visual evidence. Existing mitigations remain limited: contrastive decoding approaches operate superficially without rectifying internal semantic misalignments, while current latent steering methods rely on static vectors that lack instance-specific precision. We introduce Vision-Language Introspection (VLI), a training-free inference framework that simulates a metacognitive self-correction process. VLI first performs Attributive Introspection to diagnose hallucination risks via probabilistic conflict detection and localize the causal visual anchors. It then employs Interpretable Bi-Causal Steering to actively modulate the inference process, dynamically isolating visual evidence from background noise while neutralizing blind confidence through adaptive calibration. VLI achieves state-of-the-art performance on advanced models, reducing object hallucination rates by 12.67% on MMHal-Bench and improving accuracy by 5.8% on POPE.