Vocabulary Hijacking in LVLMs: Unveiling Critical Attention Heads by Excluding Inert Tokens to Mitigate Hallucination

📄 arXiv: 2605.10622v1 📥 PDF

作者: Yangneng Chen, Junlin Li, Weijun Yao, Xilai Ma, Guodong Du, Wenya Wang, Jing Li

分类: cs.MM, cs.CV

发布日期: 2026-05-11

备注: Accepted by ACL 2026 Main

🔗 代码/项目: GITHUB


💡 一句话要点

提出HAVAE干预策略,通过识别并抑制“词汇劫持”现象以缓解LVLM幻觉问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大模型 幻觉缓解 注意力机制 语义坍缩 模型可解释性 视觉语言模型

📋 核心要点

  1. 现有研究多将LVLM幻觉归因于视觉注意力不足,但缺乏对注意力机制内部异常行为的深入机理分析。
  2. 论文揭示了“词汇劫持”现象,即惰性视觉标记会导致语义坍缩,并提出了HABI识别方法与HAVAE干预策略。
  3. 实验表明,HAVAE在无需额外训练的情况下,能有效提升模型事实准确性,且不增加推理计算开销。

📝 摘要(中文)

大型视觉语言模型(LVLMs)在多模态任务中表现出色,但其可靠性常受幻觉问题困扰,即生成的文本与视觉输入不符。现有研究多将此归因于视觉注意力不足。本文通过Logit Lens分析注意力机制,揭示了一种称为“词汇劫持”(Vocabulary Hijacking)的异常现象:特定的视觉标记(惰性标记)会异常吸引注意力,且其隐状态在投影至词汇空间时,始终解码为一组无关的固定词汇(劫持锚点),导致语义坍缩。基于此,本文提出了基于劫持锚点的识别方法(HABI)来定位这些惰性标记,并引入非劫持视觉注意力比率(NHAR)指标以筛选关键注意力头。在此基础上,提出了无需训练的干预策略(HAVAE),通过增强关键注意力头的视觉聚焦能力,在不增加计算开销的前提下显著缓解了幻觉,同时保持了模型的通用能力。

🔬 方法详解

问题定义:论文旨在解决LVLM中普遍存在的幻觉问题。现有研究痛点在于未能深入剖析注意力机制内部的异常行为,仅从宏观层面归因于视觉注意力不足,缺乏对特定视觉标记导致语义坍缩现象的量化与干预。

核心思路:核心思路是识别并抑制“惰性标记”(Inert Tokens)。这些标记在注意力机制中占据了不成比例的权重,且其隐状态表现出“词汇劫持”特征,即无论输入如何,均倾向于解码为特定的无关词汇(劫持锚点)。通过排除这些干扰,模型能更聚焦于关键视觉信息。

技术框架:整体流程分为三步:首先利用Logit Lens技术通过投影隐状态识别劫持锚点;其次通过HABI算法定位导致劫持的惰性标记;最后利用NHAR指标筛选出对事实准确性至关重要的注意力头,并应用HAVAE策略进行无需训练的加权干预。

关键创新:最重要的创新在于揭示了“词汇劫持”这一深层机理,并提出了NHAR指标。与现有通过微调或强化学习缓解幻觉的方法不同,HAVAE是一种即插即用的训练后干预手段,无需额外计算开销。

关键设计:关键设计包括HABI识别算法,它通过分析隐状态与词汇空间的映射关系来量化劫持程度;以及HAVAE干预机制,通过对关键注意力头进行选择性增强,从而在推理阶段直接抑制幻觉生成。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验在多个主流多模态基准测试上进行了验证。结果显示,HAVAE干预策略在显著降低幻觉率的同时,保持了模型在常规任务上的性能。与基线模型相比,该方法在无需额外训练和计算开销的情况下,实现了事实准确性的稳健提升,证明了其在抑制语义坍缩方面的有效性。

🎯 应用场景

该研究适用于所有基于Transformer架构的视觉语言模型,特别是在医疗影像诊断、自动驾驶场景描述、法律文档分析等对事实准确性要求极高的领域具有重要价值。其无需训练的特性使其能够轻松集成到现有的开源LVLM部署流程中,显著提升模型在复杂视觉推理任务中的可靠性。

📄 摘要(原文)

Large Vision-Language Models (LVLMs) have achieved remarkable progress in multimodal tasks, yet their reliability is persistently undermined by hallucinations-generating text that contradicts visual input. Recent studies often attribute these errors to inadequate visual attention. In this work, we analyze the attention mechanisms via the logit lens, uncovering a distinct anomaly we term Vocabulary Hijacking. We discover that specific visual tokens, defined as Inert Tokens, disproportionately attract attention. Crucially, when their intermediate hidden states are projected into the vocabulary space, they consistently decode to a fixed set of unrelated words (termed Hijacking Anchors) across layers, revealing a rigid semantic collapse. Leveraging this semantic rigidity, we propose Hijacking Anchor-Based Identification (HABI), a robust strategy to accurately localize these Inert Tokens. To quantify the impact of this phenomenon, we introduce the Non-Hijacked Visual Attention Ratio (NHAR), a novel metric designed to identify attention heads that remain resilient to hijacking and are critical for factual accuracy. Building on these insights, we propose Hijacking-Aware Visual Attention Enhancement (HAVAE), a training-free intervention that selectively strengthens the focus of these identified heads on salient visual content. Extensive experiments across multiple benchmarks demonstrate that HAVAE significantly mitigates hallucinations with no additional computational overhead, while preserving the model's general capabilities. Our code is publicly available at https://github.com/lab-klc/HAVAE.