Dual-Pathway Circuits of Object Hallucination in Vision-Language Models
作者: Jiaxin Liu, Ding Zhong, Yue Wang, Zhidong Yang, Zhaolu Kang, Guangyuan Dong, Qishi Zhan, Pengcheng Fang, Aofan Liu
分类: cs.CV
发布日期: 2026-05-13
💡 一句话要点
提出双路径电路分析以解决视觉语言模型中的物体幻觉问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 物体幻觉 多模态推理 条件路径分析 激活补丁 因果探测 模型可靠性 可解释性
📋 核心要点
- 现有的视觉语言模型在处理多模态推理时,常常会产生物体幻觉,导致输出内容与输入图像不符,影响模型的可靠性。
- 本文提出双路径电路分析框架,旨在识别和表征VLMs中的幻觉相关电路,从而实现对幻觉现象的机制理解和因果探测。
- 实验结果表明,通过抑制幻觉路径组件,物体幻觉减少了多达76%,且对模型准确性影响极小,验证了该框架的有效性。
📝 摘要(中文)
视觉语言模型(VLMs)在视觉感知与自然语言理解之间架起了桥梁,支持多种多模态推理任务。然而,它们常常产生物体幻觉,即描述输入图像中不存在的内容,这限制了其可靠性和可解释性。为了解决这一问题,本文提出了双路径电路分析框架,识别和表征VLMs中的幻觉相关电路,以实现机制理解和因果探测。通过在五种不同架构的VLMs中应用激活补丁,识别出支持正确预测的视觉基础路径和驱动错误输出的幻觉路径。进一步引入条件路径分析(CPA),揭示了路径级交互的特征,表明基础组件在正确和幻觉样本中保持冗余,但极性发生一致翻转。通过有针对性地抑制幻觉路径组件,显示出缩放这些组件可将物体幻觉减少多达76%,且准确性损失最小。
🔬 方法详解
问题定义:本文旨在解决视觉语言模型中物体幻觉的问题,现有方法在处理多模态信息时容易产生与输入图像不符的输出,影响模型的可靠性和可解释性。
核心思路:提出双路径电路分析框架,通过识别和表征幻觉相关电路,深入理解幻觉现象的机制,并通过条件路径分析(CPA)探讨路径级交互。
技术框架:整体架构包括激活补丁应用、路径识别和条件路径分析三个主要模块。首先在多种VLM架构中应用激活补丁,识别出支持正确预测和驱动错误输出的路径。然后,通过CPA分析路径交互特征。
关键创新:最重要的创新在于提出了双路径电路分析框架,能够有效识别幻觉路径与基础路径的交互,并揭示其在不同样本中的极性变化,这是现有方法所未能实现的。
关键设计:在实验中,采用了针对性抑制幻觉路径组件的策略,通过调整组件的激活程度,成功减少了物体幻觉的发生,同时保持了模型的准确性,验证了该方法的有效性。
🖼️ 关键图片
📊 实验亮点
实验结果显示,通过有针对性地抑制幻觉路径组件,物体幻觉减少了多达76%,而准确性损失保持在最低水平。这一结果在POPE-adversarial和AMBER数据集上得到了验证,表明所识别的电路在不同架构中具有一致性,并支持因果干预。
🎯 应用场景
该研究的潜在应用领域包括智能助手、自动图像描述生成和多模态检索等。通过提高视觉语言模型的可靠性和可解释性,能够在实际应用中更好地理解和生成与图像内容相关的自然语言描述,提升用户体验。未来,该框架还可能为其他多模态学习任务提供新的思路和方法。
📄 摘要(原文)
Vision-language models (VLMs) have demonstrated remarkable capabilities in bridging visual perception and natural language understanding, enabling a wide range of multimodal reasoning tasks. However, they often produce object hallucinations, describing content absent from the input image, which limits their reliability and interpretability. To address this limitation, we propose Dual-Pathway Circuit Analysis, a framework that identifies and characterizes hallucination-related circuits in VLMs for mechanistic understanding and causal probing. We first apply activation patching across five architecturally diverse VLMs to identify a visual grounding pathway that supports correct predictions and a hallucination pathway that drives erroneous outputs. We then introduce Conditional Pathway Analysis (CPA) to characterize pathway-level interactions, revealing that grounding components remain strongly redundant in both correct and hallucinating samples but undergo a consistent polarity flip, shifting from supporting the ground truth on correct samples to aligning with the hallucinated answer on erroneous ones. We further perform targeted suppression of hallucination-pathway components, showing that scaling these components reduces object hallucination by up to 76% with minimal accuracy cost, and validate that the same circuit selectively transfers to relational but not attribute hallucination. Evaluations on POPE-adversarial and AMBER show that the identified circuits are consistent across architectures, support causal intervention, and transfer selectively across hallucination types.