Mitigating Modality Prior-Induced Hallucinations in Multimodal Large Language Models via Deciphering Attention Causality

📄 arXiv: 2410.04780v2 📥 PDF

作者: Guanyu Zhou, Yibo Yan, Xin Zou, Kun Wang, Aiwei Liu, Xuming Hu

分类: cs.CV

发布日期: 2024-10-07 (更新: 2025-02-18)

备注: Accepted by The Thirteenth International Conference on Learning Representations (ICLR 2025)

🔗 代码/项目: GITHUB


💡 一句话要点

提出CausalMM框架,通过解耦注意力因果关系缓解多模态大语言模型中的幻觉问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 因果推理 注意力机制 模态先验 幻觉缓解

📋 核心要点

  1. 多模态大语言模型易受视觉和语言先验偏差影响,产生幻觉,现有方法侧重统计相关性,忽略了注意力机制的因果关系。
  2. CausalMM框架将模态先验视为混淆因素,通过后门调整和反事实推理,在因果层面上缓解模态先验的负面影响。
  3. 实验表明,CausalMM在VLind-Bench和MME Benchmark上显著提升了性能,且具有即插即用的特性。

📝 摘要(中文)

多模态大语言模型(MLLMs)已成为工业界和学术界关注的焦点,但常常受到视觉和语言先验偏差的影响,导致多模态幻觉。这些偏差源于视觉编码器和大型语言模型(LLM)骨干网络,影响了负责对齐多模态输入的注意力机制。现有的基于解码的缓解方法侧重于统计相关性,忽略了注意力机制与模型输出之间的因果关系,限制了它们在解决这些偏差方面的有效性。为了解决这个问题,我们提出了一个名为CausalMM的因果推理框架,该框架将结构因果建模应用于MLLM,将模态先验视为注意力机制和输出之间的混淆因素。具体来说,通过在视觉和语言注意力层面采用后门调整和反事实推理,我们的方法减轻了模态先验的负面影响,并增强了MLLM输入和输出的对齐,与传统方法相比,在6个VLind-Bench指标上获得了高达65.3%的分数提升,在MME Benchmark上获得了164分的提升。大量的实验验证了我们方法的有效性,并且它是一个即插即用的解决方案。我们的代码可在https://github.com/The-Martyr/CausalMM 获得。

🔬 方法详解

问题定义:多模态大语言模型(MLLMs)在处理多模态输入时,容易受到视觉和语言模态先验的影响,产生幻觉,即模型输出与输入不一致或不相关的内容。现有方法主要关注统计相关性,例如通过调整解码策略来抑制某些模态的影响,但忽略了注意力机制与模型输出之间的因果关系,无法有效解决由模态先验引起的偏差。

核心思路:论文的核心思路是将模态先验视为注意力机制和模型输出之间的混淆因素,并利用因果推理的方法来解耦这种混淆关系。通过识别模态先验对注意力机制和模型输出的因果影响,并采用相应的干预措施,可以减轻模态先验的负面影响,从而提高MLLM的准确性和可靠性。这种方法从因果层面出发,能够更有效地解决由模态先验引起的幻觉问题。

技术框架:CausalMM框架主要包含以下几个阶段:1) 结构因果模型构建:将MLLM的注意力机制和模态先验表示为结构因果模型中的节点,并确定它们之间的因果关系。2) 后门调整:通过后门调整来消除模态先验对注意力机制的影响,从而获得无偏的注意力表示。3) 反事实推理:利用反事实推理来评估模态先验对模型输出的影响,并进行相应的校正。4) 模型训练与推理:将经过因果干预的注意力表示用于MLLM的训练和推理,从而提高模型的性能。

关键创新:该论文最重要的技术创新点在于将因果推理引入到多模态大语言模型中,用于缓解由模态先验引起的幻觉问题。与现有方法相比,CausalMM从因果层面出发,能够更有效地解耦模态先验对注意力机制和模型输出的影响,从而提高模型的准确性和可靠性。此外,CausalMM具有即插即用的特性,可以方便地应用于各种MLLM架构。

关键设计:CausalMM的关键设计包括:1) 模态先验的表示:论文采用了一种有效的方法来表示视觉和语言模态的先验信息。2) 后门调整的实现:论文设计了一种基于注意力机制的后门调整方法,用于消除模态先验对注意力机制的影响。3) 反事实推理的应用:论文利用反事实推理来评估模态先验对模型输出的影响,并设计了一种相应的校正方法。具体的参数设置和损失函数等技术细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CausalMM在VLind-Bench的6个指标上取得了高达65.3%的分数提升,在MME Benchmark上获得了164分的提升,显著优于现有方法。这些结果验证了CausalMM在缓解多模态幻觉方面的有效性,并表明其具有良好的泛化能力。

🎯 应用场景

该研究成果可广泛应用于各种多模态大语言模型,提高其在图像描述、视觉问答、多模态对话等任务中的性能和可靠性。通过缓解模态先验引起的幻觉问题,可以提升模型在实际应用中的用户体验和信任度,例如在医疗诊断、自动驾驶等安全攸关领域。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) have emerged as a central focus in both industry and academia, but often suffer from biases introduced by visual and language priors, which can lead to multimodal hallucination. These biases arise from the visual encoder and the Large Language Model (LLM) backbone, affecting the attention mechanism responsible for aligning multimodal inputs. Existing decoding-based mitigation methods focus on statistical correlations and overlook the causal relationships between attention mechanisms and model output, limiting their effectiveness in addressing these biases. To tackle this issue, we propose a causal inference framework termed CausalMM that applies structural causal modeling to MLLMs, treating modality priors as a confounder between attention mechanisms and output. Specifically, by employing backdoor adjustment and counterfactual reasoning at both the visual and language attention levels, our method mitigates the negative effects of modality priors and enhances the alignment of MLLM's inputs and outputs, with a maximum score improvement of 65.3% on 6 VLind-Bench indicators and 164 points on MME Benchmark compared to conventional methods. Extensive experiments validate the effectiveness of our approach while being a plug-and-play solution. Our code is available at: https://github.com/The-Martyr/CausalMM