Focus Matters: Phase-Aware Suppression for Hallucination in Vision-Language Models
作者: Sohyeon Kim, Sang Yeon Yoon, Kyeongbo Kong
分类: cs.CV, cs.AI, cs.CL
发布日期: 2026-04-07
💡 一句话要点
提出基于相位感知的抑制方法,解决视觉-语言模型中的幻觉问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言模型 幻觉抑制 注意力机制 推理时干预 行列式点过程
📋 核心要点
- 现有LVLM缓解幻觉的方法依赖迭代优化,导致推理延迟高,难以满足实时性要求。
- 通过分析LVLM视觉编码器的注意力动态,发现聚焦阶段的低关注度tokens与幻觉行为密切相关。
- 提出一种轻量级推理时干预方法,选择性抑制聚焦阶段的低关注度tokens,无需训练且延迟低。
📝 摘要(中文)
大型视觉-语言模型(LVLMs)在多模态推理方面取得了显著进展,但仍然容易出现对象幻觉,即生成输入图像中不存在对象的描述。最近的方法试图通过抑制视觉编码器中不可靠的视觉信号来缓解幻觉,但许多方法依赖于对每个输入的迭代优化,导致显著的推理延迟。本文研究了LVLMs中视觉编码器的内部注意力动态,并识别出视觉信息处理的一致三阶段结构:扩散、聚焦和再扩散。分析表明,幻觉行为对聚焦阶段接收低注意力的tokens特别敏感。基于此,本文提出了一种轻量级的推理时干预方法,选择性地抑制聚焦阶段的此类tokens。该方法以无训练方式运行,使用单次前向传递的统计信息,并采用行列式点过程(DPP)来保留多样化的视觉线索,同时过滤冗余的tokens。在多个LVLM骨干网络和解码策略上的大量实验表明,该方法始终如一地降低了幻觉指标,同时保持了具有竞争力的字幕质量。此外,与对抗性不确定性估计方法相比,该方法实现了相当的幻觉缓解效果,且几乎没有额外的推理延迟。
🔬 方法详解
问题定义:大型视觉-语言模型(LVLMs)在生成图像描述时,经常会产生“幻觉”,即描述图像中不存在的对象。现有的缓解幻觉的方法,例如通过抑制不可靠的视觉信号,通常需要对每个输入进行迭代优化,这导致了显著的推理延迟,限制了其在实际应用中的部署。
核心思路:本文的核心思路是,通过分析LVLM内部的注意力机制,找到与幻觉行为相关的关键视觉信息处理阶段,并在此阶段进行选择性的信息抑制。具体来说,作者发现视觉编码器存在扩散、聚焦和再扩散三个阶段,而聚焦阶段的低关注度tokens与幻觉行为密切相关。因此,通过抑制这些tokens,可以有效地减少幻觉的产生。
技术框架:该方法主要包含以下几个步骤:1) 对输入图像进行视觉编码,得到视觉tokens的表示;2) 分析视觉编码器的注意力权重,识别出聚焦阶段;3) 在聚焦阶段,计算每个token的注意力得分,并选择得分较低的tokens进行抑制;4) 使用行列式点过程(DPP)对选择的tokens进行过滤,以保留多样化的视觉线索,避免过度抑制;5) 将处理后的视觉tokens输入到语言模型中,生成图像描述。
关键创新:该方法的关键创新在于:1) 发现了视觉编码器中存在与幻觉相关的特定信息处理阶段(聚焦阶段);2) 提出了一种轻量级的、无需训练的推理时干预方法,可以在聚焦阶段选择性地抑制低关注度tokens,从而有效地减少幻觉;3) 使用DPP来保留多样化的视觉线索,避免过度抑制,保证了生成描述的质量。
关键设计:该方法的关键设计包括:1) 使用注意力权重作为token重要性的度量标准;2) 使用行列式点过程(DPP)来保证选择的tokens的多样性,DPP的核矩阵基于tokens之间的相似度计算;3) 该方法是无训练的,只需要单次前向传递的统计信息,因此计算效率很高。
🖼️ 关键图片
📊 实验亮点
该方法在多个LVLM骨干网络和解码策略上进行了广泛的实验,结果表明,该方法能够始终如一地降低幻觉指标,同时保持具有竞争力的字幕质量。与对抗性不确定性估计方法相比,该方法实现了相当的幻觉缓解效果,且几乎没有额外的推理延迟。这表明该方法在实际应用中具有很高的价值。
🎯 应用场景
该研究成果可应用于各种需要可靠图像描述的场景,例如:自动驾驶(减少对不存在物体的错误识别)、智能客服(提供更准确的图像信息)、医疗影像诊断(辅助医生进行更精确的判断)等。通过降低视觉-语言模型中的幻觉,可以提高系统的安全性和可靠性,增强用户信任度。
📄 摘要(原文)
Large Vision-Language Models (LVLMs) have achieved impressive progress in multimodal reasoning, yet they remain prone to object hallucinations, generating descriptions of objects that are not present in the input image. Recent approaches attempt to mitigate hallucinations by suppressing unreliable visual signals in the vision encoder, but many rely on iterative optimization for each input, resulting in substantial inference latency. In this work, we investigate the internal attention dynamics of vision encoders in LVLMs and identify a consistent three-phase structure of visual information processing: diffusion, focus, and rediffusion. Our analysis reveals that hallucination behavior is particularly sensitive to tokens receiving low attention during the focus phase. Motivated by this observation, we propose a lightweight inference-time intervention that selectively suppresses such tokens during the focus phase. The method operates in a training-free manner using statistics from a single forward pass and employs a Determinantal Point Process (DPP) to preserve diverse visual cues while filtering redundant tokens. Extensive experiments across multiple LVLM backbones and decoding strategies demonstrate that the proposed approach consistently reduces hallucination metrics while maintaining competitive caption quality. Moreover, compared to adversarial uncertainty estimation methods, our approach achieves comparable hallucination mitigation with negligible additional inference latency.