Visual Attention Drifts,but Anchors Hold:Mitigating Hallucination in Multimodal Large Language Models via Cross-Layer Visual Anchors

📄 arXiv: 2603.25088v1 📥 PDF

作者: Chengxu Yang, Jingling Yuan, Chuang Hu, Jiawei Jiang

分类: cs.CV

发布日期: 2026-03-26


💡 一句话要点

提出CLVA,通过跨层视觉锚点缓解多模态大语言模型中的幻觉问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 幻觉问题 注意力机制 视觉锚点 跨层特征融合

📋 核心要点

  1. 多模态大语言模型存在对象幻觉问题,现有方法缺乏对深层注意力漂移的解释。
  2. 提出跨层视觉锚点(CLVA)方法,通过强化中间层视觉特征并抑制噪声来缓解幻觉。
  3. 实验表明,CLVA在多种架构和基准测试中表现出色,且计算开销增加不明显。

📝 摘要(中文)

多模态大语言模型(MLLMs)常常遭受对象幻觉问题。现有研究虽然利用了注意力增强和视觉回溯,但我们发现这些工作在最终模型阶段缺乏对注意力漂移的充分可解释性。本文研究了视觉特征的逐层演变,发现幻觉源于深层注意力向早期层的初始视觉噪声回归。我们观察到,输出可靠性取决于在中间层而非最终层获取视觉锚点。基于这些见解,我们提出了一种名为跨层视觉锚点(CLVA)的免训练方法,该方法强化了关键的中间层特征,同时抑制了回归噪声。这种方法通过利用从注意力动态中捕获的关键锚点,有效地将深层注意力拉回到正确的视觉区域。我们在不同的架构和基准上评估了我们的方法,证明了其出色的性能,而没有显著增加计算时间和GPU内存。

🔬 方法详解

问题定义:多模态大语言模型在生成文本描述时,经常出现“幻觉”现象,即描述中包含图像中不存在的对象或属性。现有方法如注意力增强和视觉回溯,未能充分解释深层网络中注意力漂移的根本原因,导致效果有限。这些方法未能有效区分关键视觉信息和噪声,尤其是在深层网络中,容易受到早期层噪声的影响。

核心思路:论文的核心思路是,幻觉的产生源于深层注意力向早期层的视觉噪声回归。因此,模型输出的可靠性依赖于在中间层获取的视觉锚点,而非最终层。通过强化中间层的关键视觉特征,同时抑制回归噪声,可以将深层注意力拉回到正确的视觉区域,从而减少幻觉。

技术框架:CLVA方法是一种免训练的方法,不需要额外的训练数据或微调过程。其主要流程包括:1)分析多模态大语言模型中视觉特征的逐层演变,确定关键的中间层;2)提取这些中间层的视觉特征作为视觉锚点;3)利用这些视觉锚点来引导深层网络的注意力,抑制噪声并强化关键信息。

关键创新:该方法最重要的创新点在于发现了幻觉产生的根本原因——深层注意力向早期视觉噪声的回归,并提出了利用中间层视觉锚点来缓解这一问题。与现有方法相比,CLVA更具可解释性,并且不需要额外的训练或微调,可以直接应用于现有的多模态大语言模型。

关键设计:CLVA的关键设计在于如何选择合适的中间层作为视觉锚点来源,以及如何有效地利用这些锚点来引导深层注意力。具体的技术细节包括:1)使用注意力动态分析来确定关键中间层;2)采用某种机制(具体实现未知)来强化这些中间层的特征,并抑制噪声;3)将这些强化后的特征融入到深层网络的注意力计算中,以引导注意力集中到正确的视觉区域。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CLVA方法在多种多模态大语言模型架构和基准测试中均取得了显著的性能提升。具体的数据和提升幅度在论文中给出(未知),但总体而言,CLVA能够在不显著增加计算时间和GPU内存的情况下,有效地缓解幻觉问题,提高模型输出的准确性和可靠性。

🎯 应用场景

该研究成果可广泛应用于各种需要多模态理解和生成的场景,例如图像描述、视觉问答、机器人导航等。通过减少多模态大语言模型中的幻觉,可以提高这些应用的可信度和可靠性,从而在医疗诊断、自动驾驶等关键领域发挥更大的作用。未来,该方法可以进一步扩展到其他多模态任务和模型架构中。

📄 摘要(原文)

Multimodal Large Language Models often suffer from object hallucination. While existing research utilizes attention enhancement and visual retracing, we find these works lack sufficient interpretability regarding attention drift in final model stages. In this paper, we investigate the layer wise evolution of visual features and discover that hallucination stems from deep layer attention regressing toward initial visual noise from early layers. We observe that output reliability depends on acquiring visual anchors at intermediate layers rather than final layers. Based on these insights, we propose CLVA, which stands for Cross-Layer Visual Anchors, a training free method that reinforces critical mid layer features while suppressing regressive noise. This approach effectively pulls deep layer attention back to correct visual regions by utilizing essential anchors captured from attention dynamics. We evaluate our method across diverse architectures and benchmarks, demonstrating outstanding performance without significant increase in computational time and GPU memory.