When Looking Is Not Enough: Visual Attention Structure Reveals Hallucination in MLLMs

📄 arXiv: 2605.11559v1 📥 PDF

作者: Fanpu Cao, Xin Zou, Xuming Hu, Hui Xiong

分类: cs.CV, cs.AI

发布日期: 2026-05-12

🔗 代码/项目: GITHUB


💡 一句话要点

利用视觉注意力结构揭示多模态大语言模型中的幻觉现象,并提出LaSCD解码策略

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视觉幻觉 注意力机制 拉普拉斯能量 对比解码

📋 核心要点

  1. 多模态大语言模型存在视觉幻觉问题,即生成与图像内容不符或提及不存在对象的回答,现有方法难以有效解决。
  2. 论文核心思想是分析视觉注意力的高频结构,通过拉普拉斯能量揭示幻觉偏好和真实答案恢复的层,从而指导解码。
  3. 提出的LaSCD解码策略利用拉普拉斯能量选择信息层,并重新映射logits,实验表明能有效减少幻觉并保持模型通用能力。

📝 摘要(中文)

多模态大语言模型(MLLMs)已成为视觉推理和基于图像内容的问题回答的关键接口,但它们仍然容易出现视觉幻觉,即生成的回答与图像内容相矛盾或提及不存在的对象。一个核心挑战是,幻觉并不总是由简单的缺乏视觉注意力引起的:模型可能仍然将大量的注意力分配给图像token,但在内部却朝着错误的答案漂移。本文表明,通过逐层拉普拉斯能量测量的高频视觉注意力结构,可以揭示幻觉偏好出现的层,以及真实答案短暂恢复的层。基于这一发现,我们提出LaSCD(Laplacian-Spectral Contrastive Decoding),一种无需训练的解码策略,通过拉普拉斯能量选择信息层,并以闭合形式重新映射下一个token的logits。在幻觉和通用多模态基准上的实验表明,LaSCD始终如一地减少幻觉,同时保持通用能力,突显了其作为一种可靠解码范例的潜力。代码可在https://github.com/macovaseas/LaSCD获取。

🔬 方法详解

问题定义:多模态大语言模型在视觉推理和问答任务中表现出视觉幻觉,即生成与图像内容不符或提及不存在对象的回答。现有方法难以有效解决这一问题,因为幻觉并非总是由缺乏视觉注意力引起,模型可能在关注图像token的同时产生错误的内部偏好。现有方法难以定位幻觉产生的具体层,也无法有效利用注意力信息来纠正幻觉。

核心思路:论文的核心思路是分析视觉注意力结构中的高频信息,具体而言,使用拉普拉斯能量来衡量每一层视觉注意力的变化程度。作者发现,幻觉偏好会在特定的层中出现,而真实答案也会在某些层中短暂恢复。通过分析拉普拉斯能量,可以定位这些关键层,并利用这些层的信息来指导解码,从而减少幻觉。

技术框架:论文提出的LaSCD解码策略主要包含以下几个阶段:1) 计算每一层视觉注意力的拉普拉斯能量;2) 基于拉普拉斯能量选择信息量最大的层;3) 利用选定层的注意力信息,重新映射下一个token的logits;4) 使用重新映射后的logits进行解码,生成最终的回答。整个过程无需额外的训练,可以直接应用于现有的多模态大语言模型。

关键创新:论文最重要的技术创新点在于发现了视觉注意力结构中的高频信息(拉普拉斯能量)与幻觉现象之间的关联。通过分析拉普拉斯能量,可以定位幻觉产生的关键层,并利用这些层的信息来指导解码,从而有效减少幻觉。与现有方法相比,LaSCD无需额外的训练,可以直接应用于现有的模型,并且能够更精确地利用注意力信息。

关键设计:LaSCD的关键设计包括:1) 使用拉普拉斯算子计算视觉注意力的拉普拉斯能量,以衡量注意力结构的高频变化;2) 基于拉普拉斯能量选择信息量最大的层,具体而言,可以选择拉普拉斯能量最高的若干层,或者使用阈值来选择;3) 利用选定层的注意力信息,重新映射下一个token的logits,具体而言,可以使用对比学习的方法,鼓励模型生成与图像内容一致的回答,抑制生成幻觉的回答。

📊 实验亮点

实验结果表明,LaSCD解码策略在减少幻觉方面取得了显著效果,同时保持了模型的通用能力。在多个幻觉和通用多模态基准测试中,LaSCD consistently 减少了幻觉,并且在某些情况下,甚至提高了模型的整体性能。具体的数据指标需要在论文中查找。

🎯 应用场景

该研究成果可应用于提升多模态大语言模型在视觉推理和问答任务中的可靠性,减少幻觉现象。这对于需要高度准确性的应用场景至关重要,例如医疗诊断、自动驾驶、智能客服等。未来,该方法可以进一步扩展到其他多模态任务,例如图像描述、视频理解等,提升模型的整体性能和可信度。

📄 摘要(原文)

Multimodal large language models (MLLMs) have become a key interface for visual reasoning and grounded question answering, yet they remain vulnerable to visual hallucinations, where generated responses contradict image content or mention nonexistent objects. A central challenge is that hallucination is not always caused by a simple lack of visual attention: the model may still assign substantial attention mass to image tokens while internally drifting toward an incorrect answer. In this paper, we show that the high-frequency structure of visual attention, measured by layer-wise Laplacian energy, reveals both the layer where hallucinated preferences emerge and the layer where the ground-truth answer transiently recovers. Building on this finding, we propose LaSCD (Laplacian-Spectral Contrastive Decoding), a training-free decoding strategy that selects informative layers via Laplacian energy and remaps next-token logits in closed form. Experiments on hallucination and general multimodal benchmarks show that LaSCD consistently reduces hallucination while preserving general capabilities, highlighting its potential as a faithful decoding paradigm. The code is available at https://github.com/macovaseas/LaSCD.