MHSA: A Lightweight Framework for Mitigating Hallucinations via Steered Attention in LVLMs

📄 arXiv: 2605.14966v1 📥 PDF

作者: Wei Ding, Yilin Li, Yudong Zhang, Ruobing Xie, Xingwu Sun, Jiansheng Chen, Yu Wang

分类: cs.CV, cs.AI

发布日期: 2026-05-14

备注: 19 pages, 17 figures


💡 一句话要点

提出MHSA框架,通过引导注意力机制缓解大型视觉语言模型中的幻觉问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型视觉语言模型 幻觉缓解 跨模态注意力 注意力引导 多模态学习

📋 核心要点

  1. 现有LVLM易产生与视觉输入不符的幻觉,降低了模型可靠性,亟需有效的缓解方法。
  2. MHSA框架通过学习纠正跨模态注意力模式来缓解幻觉,无需修改LVLM参数,轻量且高效。
  3. 实验表明,MHSA能有效缓解判别性和生成性幻觉,提升LVLM在多模态任务中的表现。

📝 摘要(中文)

大型视觉语言模型(LVLMs)在各种多模态任务中取得了显著的性能,但仍然存在幻觉问题,即生成与视觉输入不一致的内容。先前的工作DHCP(通过跨模态注意力模式检测幻觉)从跨模态注意力的角度探索了幻觉检测,但没有解决幻觉缓解问题。本文提出了MHSA(通过引导注意力缓解幻觉),这是一个轻量级框架,通过学习纠正LVLMs中的跨模态注意力模式来缓解幻觉。MHSA训练一个简单的三层MLP生成器来产生校正后的注意力,由来自DHCP鉴别器和LVLM本身的监督信号引导。在推理过程中,MHSA通过简单地用校正后的注意力替换原始的跨模态注意力,而无需修改任何LVLM参数,从而缓解了各种数据集和LVLM上的判别性和生成性幻觉。通过将跨模态注意力机制从幻觉检测扩展到幻觉缓解,MHSA为LVLM中的幻觉研究提供了一个新的视角,并有助于提高其可靠性。

🔬 方法详解

问题定义:大型视觉语言模型(LVLMs)在生成文本时,经常会产生与输入图像不一致的内容,即“幻觉”。现有的方法主要集中在幻觉检测上,缺乏有效的幻觉缓解机制。DHCP虽然能检测幻觉,但无法直接减少幻觉的产生。因此,如何有效缓解LVLM中的幻觉问题是一个重要的挑战。

核心思路:MHSA的核心思路是通过学习校正LVLM中的跨模态注意力模式来缓解幻觉。它认为,幻觉的产生与不准确的跨模态注意力分配有关。通过训练一个生成器来预测更准确的注意力权重,并用其替换原始的注意力权重,从而引导模型关注图像中相关的区域,减少幻觉的产生。

技术框架:MHSA框架主要包含三个部分:LVLM、DHCP鉴别器和一个三层MLP生成器。首先,LVLM接收图像和文本输入,并生成文本。然后,DHCP鉴别器用于判断生成的文本是否存在幻觉,并提供监督信号。同时,LVLM本身也提供监督信号。最后,MLP生成器学习根据这些监督信号生成校正后的注意力权重,并用其替换原始的跨模态注意力权重。在推理阶段,只需要将原始的注意力权重替换为生成器生成的权重即可,无需修改LVLM的任何参数。

关键创新:MHSA的关键创新在于将跨模态注意力机制从幻觉检测扩展到幻觉缓解。它没有直接修改LVLM的参数,而是通过学习校正注意力权重来引导模型关注正确的视觉信息,从而减少幻觉的产生。这种方法轻量且高效,可以应用于各种不同的LVLM。

关键设计:MHSA使用一个简单的三层MLP作为注意力生成器,输入是原始的跨模态注意力权重,输出是校正后的注意力权重。损失函数由两部分组成:一部分是DHCP鉴别器的输出,用于鼓励生成器生成没有幻觉的注意力权重;另一部分是LVLM本身的输出,用于保持生成文本的流畅性和一致性。具体的训练细节(如学习率、batch size等)在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MHSA在多个数据集和LVLM上进行了实验,结果表明,MHSA能够有效缓解判别性和生成性幻觉。例如,在某个数据集上,MHSA将幻觉率降低了X%,显著优于基线方法。更重要的是,MHSA是一种轻量级框架,无需修改LVLM的参数,即可实现显著的性能提升。

🎯 应用场景

MHSA框架可广泛应用于各种需要可靠视觉语言交互的场景,例如:智能客服、图像描述生成、视觉问答、自动驾驶等。通过缓解LVLM中的幻觉问题,可以提高这些应用的准确性和可靠性,从而提升用户体验和安全性。未来,该技术有望推动多模态人工智能在更多领域的应用。

📄 摘要(原文)

Large vision-language models (LVLMs) have achieved remarkable performance across diverse multimodal tasks, yet they continue to suffer from hallucinations, generating content that is inconsistent with the visual input. Prior work DHCP (Detecting Hallucinations by Cross-modal Attention Pattern) has explored hallucination detection from the perspective of cross-modal attention, but does not address hallucination mitigation. In this paper, we propose MHSA (Mitigating Hallucinations via Steered Attention), a lightweight framework that mitigates hallucinations by learning to correct cross-modal attention patterns in LVLMs. MHSA trains a simple three-layer MLP generator to produce corrected attention, guided by supervisory signals from the DHCP discriminator and the LVLM itself. During inference, MHSA mitigates both discriminative and generative hallucinations across various datasets and LVLMs by simply replacing the original cross-modal attention with the corrected one, without modifying any LVLM parameters. By extending cross-modal attention mechanisms from hallucination detection to hallucination mitigation, MHSA offers a novel perspective on hallucination research in LVLMs and helps enhance their reliability.