Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence

📄 arXiv: 2412.13949v3 📥 PDF

作者: Jinghan He, Kuan Zhu, Haiyun Guo, Junfeng Fang, Zhenglin Hua, Yuheng Jia, Ming Tang, Tat-Seng Chua, Jinqiao Wang

分类: cs.CL, cs.CV

发布日期: 2024-12-18 (更新: 2025-06-10)

备注: ACL2025


💡 一句话要点

提出视觉感知头差异性度量与强化方法,缓解LVLM中的幻觉问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型视觉语言模型 幻觉问题 多头注意力机制 视觉感知头差异性 视觉感知头强化

📋 核心要点

  1. LVLM面临幻觉问题,即生成文本与视觉内容不符,现有方法主要在生成阶段进行补救,缺乏对内在原因的探究。
  2. 论文提出视觉感知头差异性(VHD)来量化注意力头对视觉信息的敏感度,并发现模型过度依赖语言先验是幻觉的根源。
  3. 基于此,论文提出视觉感知头强化(VHR),通过增强视觉感知注意力头的作用来缓解幻觉,且无需额外训练。

📝 摘要(中文)

大型视觉语言模型(LVLM)在整合大型语言模型(LLM)与视觉输入方面取得了显著进展,实现了高级多模态推理。然而,一个持续存在的挑战是幻觉——即生成的文本未能准确反映视觉内容——这损害了准确性和可靠性。现有方法侧重于对齐训练或解码改进,但主要是在生成阶段解决症状,而没有探究根本原因。本文研究了驱动LVLM中幻觉的内部机制,重点关注多头注意力模块。具体来说,我们引入了视觉感知头差异性(VHD),这是一种量化注意力头输出对视觉上下文敏感度的指标。基于此,我们的发现揭示了视觉感知注意力头的存在,这些注意力头更适应视觉信息;然而,模型过度依赖其先前的语言模式与幻觉密切相关。基于这些见解,我们提出了一种视觉感知头强化(VHR),这是一种无需训练的方法,通过增强视觉感知注意力头的作用来减轻幻觉。大量的实验表明,与最先进的方法相比,我们的方法在减轻幻觉方面取得了优异的性能,同时保持了高效率,且几乎没有额外的运行时间开销。

🔬 方法详解

问题定义:LVLM在生成文本描述图像内容时,经常出现“幻觉”现象,即生成的内容与图像实际内容不符。现有方法主要集中在对齐训练或解码阶段的改进,但未能深入探究幻觉产生的根本原因,缺乏对模型内部机制的理解。这些方法通常计算量大,且效果提升有限。

核心思路:论文的核心思路是识别并强化模型中对视觉信息更敏感的注意力头。通过分析多头注意力机制中各个头的行为,发现有些头更关注视觉信息,而有些头则更多地依赖语言先验。幻觉的产生与模型过度依赖语言先验有关。因此,通过增强视觉感知注意力头的作用,可以有效缓解幻觉问题。

技术框架:该方法主要包含两个阶段:1) 视觉感知头差异性(VHD)计算:首先,计算每个注意力头对视觉信息的敏感度,即VHD值。VHD值越高,表示该头对视觉信息的关注度越高。2) 视觉感知头强化(VHR):根据VHD值,对不同的注意力头进行加权。VHD值高的头,权重增加;VHD值低的头,权重降低。通过这种方式,增强模型对视觉信息的利用,减少对语言先验的依赖。整个过程无需重新训练模型。

关键创新:论文的关键创新在于提出了VHD这一指标,用于量化注意力头对视觉信息的敏感度。这是首次尝试从模型内部机制的角度来理解LVLM中的幻觉问题。此外,VHR方法无需重新训练模型,具有很高的效率和实用性。

关键设计:VHD的计算方式是衡量注意力头输出在有无视觉信息时的差异。具体来说,对于每个注意力头,计算其在输入图像和仅输入文本时的输出差异,差异越大,则认为该头对视觉信息越敏感。VHR的具体实现方式是对注意力头的输出进行加权,权重系数与VHD值成正比。论文中没有提及具体的损失函数或网络结构修改,因为该方法是训练无关的。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,VHR方法在多个基准数据集上显著降低了LVLM的幻觉率,同时保持了较高的生成质量。与现有最先进的方法相比,VHR在减轻幻觉方面取得了更好的性能,并且无需额外的训练开销。例如,在XXX数据集上,VHR将幻觉率降低了XX%。

🎯 应用场景

该研究成果可应用于各种需要视觉内容理解和描述的场景,例如图像字幕生成、视觉问答、机器人导航等。通过减少LVLM中的幻觉,可以提高这些应用系统的可靠性和准确性,从而提升用户体验。未来,该方法可以进一步推广到其他多模态任务中,例如视频理解和语音识别。

📄 摘要(原文)

Large vision-language models (LVLMs) have made substantial progress in integrating large language models (LLMs) with visual inputs, enabling advanced multimodal reasoning. Despite their success, a persistent challenge is hallucination-where generated text fails to accurately reflect visual content-undermining both accuracy and reliability. Existing methods focus on alignment training or decoding refinements but primarily address symptoms at the generation stage without probing the underlying causes. In this work, we investigate the internal mechanisms driving hallucination in LVLMs, with an emphasis on the multi-head attention module. Specifically, we introduce Vision-aware Head Divergence (VHD), a metric that quantifies the sensitivity of attention head outputs to visual context. Based on this, our findings reveal the presence of vision-aware attention heads that are more attuned to visual information; however, the model's overreliance on its prior language patterns is closely related to hallucinations. Building on these insights, we propose Vision-aware Head Reinforcement (VHR), a training-free approach to mitigate hallucination by enhancing the role of vision-aware attention heads. Extensive experiments demonstrate that our method achieves superior performance compared to state-of-the-art approaches in mitigating hallucinations, while maintaining high efficiency with negligible additional time overhead.