Seeing to Ground: Visual Attention for Hallucination-Resilient MDLLMs

📄 arXiv: 2603.25711v1 📥 PDF

作者: Vishal Narnaware, Animesh Gupta, Kevin Zhai, Zhenyi Wang, Mubarak Shah

分类: cs.CV

发布日期: 2026-03-26


💡 一句话要点

提出VISAGE框架,通过视觉注意力校准,提升MDLLM的多模态抗幻觉能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 幻觉抑制 视觉注意力 交叉注意力 空间熵 目标校准 推理框架

📋 核心要点

  1. MDLLM易受多模态幻觉影响,原因是解码器仅基于文本概率排序token,忽略了视觉信息的验证。
  2. VISAGE通过量化交叉注意力分布的空间熵来估计代理差异,并惩罚空间均匀分布,从而校准目标。
  3. 实验表明,VISAGE在MMMU-val和HallusionBench等基准测试中,显著提升了MDLLM的抗幻觉能力。

📝 摘要(中文)

多模态扩散大语言模型(MDLLM)通过并行掩码解码实现高并发生成,但其架构容易产生多模态幻觉。这种结构性弱点源于算法缺陷:解码器在没有验证局部视觉支持的情况下,基于文本可能性对候选token进行排序。本文指出,这种纯语言排序导致目标不匹配,语言概率质量成为多模态任务的错误代理。因此,将幻觉重新解释为局部优化误差,即解码器利用语言捷径来最大化代理分数,牺牲了视觉基础。为解决此问题,本文提出VISAGE,一种无需训练的解码框架,可在推理时校准目标。VISAGE通过量化交叉注意力分布的空间熵来估计代理差异。通过在注意力头之间强制执行定位一致性,该方法惩罚空间均匀分布,并重新排序token承诺以支持视觉上接地的结果。分析稳定性保证表明,VISAGE在估计误差下保持有界目标损失。在幻觉敏感和通用基准上的评估表明了该框架的鲁棒性,在MMMU-val上产生了8.59%的相对收益,在HallusionBench上产生了7.75%的相对收益。

🔬 方法详解

问题定义:MDLLM在生成内容时容易产生幻觉,即生成与视觉信息不符的内容。现有方法主要依赖于文本概率进行token排序,忽略了视觉信息的验证,导致目标函数与实际的多模态任务不匹配。这种不匹配使得模型倾向于利用语言捷径,牺牲视觉一致性。

核心思路:VISAGE的核心思路是在推理阶段校准目标函数,使其更好地反映多模态任务的需求。通过分析交叉注意力分布的空间熵,估计语言概率与视觉支持之间的差异,并利用这一差异来重新排序候选token,从而选择更符合视觉信息的token。

技术框架:VISAGE是一个无需训练的解码框架,主要包含以下步骤:1) 计算交叉注意力分布;2) 量化交叉注意力分布的空间熵,作为代理差异的估计;3) 基于空间熵重新排序候选token,选择具有更强视觉支持的token;4) 生成最终结果。

关键创新:VISAGE的关键创新在于利用交叉注意力分布的空间熵来估计语言概率与视觉支持之间的差异。通过惩罚空间均匀的注意力分布,鼓励模型关注与视觉信息相关的区域,从而提高生成结果的视觉一致性。与现有方法相比,VISAGE无需额外的训练,可以直接应用于现有的MDLLM。

关键设计:VISAGE的关键设计包括:1) 使用交叉注意力分布的空间熵作为代理差异的度量;2) 设计了一种重新排序token的策略,该策略基于空间熵对候选token进行加权,从而选择具有更强视觉支持的token;3) 理论分析证明了VISAGE在估计误差下保持有界目标损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VISAGE在MMMU-val和HallusionBench等幻觉敏感基准测试中取得了显著的性能提升,分别达到了8.59%和7.75%。这些结果表明,VISAGE能够有效地减少MDLLM的幻觉现象,提高生成结果的视觉一致性,并且具有良好的泛化能力。

🎯 应用场景

VISAGE框架可广泛应用于各种需要多模态信息融合的场景,例如图像描述生成、视觉问答、机器人导航等。该研究有助于提升多模态大语言模型在实际应用中的可靠性和准确性,减少幻觉现象,提高用户体验,并促进人机交互的自然性。

📄 摘要(原文)

Multimodal Diffusion Large Language Models (MDLLMs) achieve high-concurrency generation through parallel masked decoding, yet the architectures remain prone to multimodal hallucinations. This structural vulnerability stems from an algorithmic flaw: the decoder ranks candidate tokens based on textual likelihood without verifying localized visual support. We establish that this language-only ranking induces an objective mismatch, where language probability mass acts as a misspecified proxy for the intended multimodal task. Consequently, we reinterpret hallucination as a localized optimization error, a phenomenon where the decoder exploits language shortcuts to maximize a proxy score at the expense of visual grounding. To address this objective mismatch, we introduce VISAGE, a training-free decoding framework that calibrates the objective at inference time. VISAGE estimates the proxy discrepancy by quantifying the spatial entropy of cross-attention distributions. By enforcing a localization consensus across attention heads, the method penalizes spatially uniform distributions and re-ranks token commitments to favor visually grounded outcomes. We provide an analytical stability guarantee establishing that VISAGE maintains a bounded objective loss under estimation error. Evaluations across hallucination-sensitive and general-purpose benchmarks demonstrate the robustness of the framework, yielding relative gains of 8.59% on MMMU-val and 7.75% on HallusionBench.