Do We Really Need External Tools to Mitigate Hallucinations? SIRA: Shared-Prefix Internal Reconstruction of Attribution

📄 arXiv: 2605.14621v1 📥 PDF

作者: Tian Qin, Junzhe Chen, Yuqing Shi, Tianshu Zhang, Qiang Ju, Lijie Wen

分类: cs.CV, cs.AI, cs.CL

发布日期: 2026-05-14


💡 一句话要点

提出SIRA:一种无需外部工具缓解大模型幻觉的内部对比解码框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 幻觉缓解 对比解码 内部对比 多模态Transformer

📋 核心要点

  1. 现有对比解码方法依赖外部扰动图像作为参考,引入伪影且计算成本高昂,限制了其应用。
  2. SIRA 利用多模态 Transformer 内部信息流,构建反事实分支,无需外部参考即可实现对比解码。
  3. 实验表明,SIRA 在减少幻觉的同时,保持了描述性覆盖率,且计算开销低于传统对比解码。

📝 摘要(中文)

大型视觉语言模型(LVLMs)在视觉证据微弱或模糊时,常因语言先验而产生幻觉。现有的对比解码方法通过比较原始图像和外部扰动图像的预测来缓解此问题,但这些参考可能引入离 manifold 的伪影,并需要昂贵的额外前向传递。我们提出了SIRA,一个无需训练的内部对比解码框架,它通过利用多模态 Transformer 的分阶段信息流在同一 LVLM 内部构建反事实参考。SIRA 首先让图像和文本 tokens 通过共享前缀交互,形成对齐的多模态状态,保留提示解释、解码历史、位置结构和早期视觉 grounding。然后在后续 Transformer 层中分叉一个反事实分支,其中对图像 token 位置的注意力被屏蔽。该分支保留了共享的多模态上下文,但无法继续访问细粒度的视觉证据,从而产生以语言先验为主导的内部参考,用于 token 级别的对比。在解码过程中,SIRA 抑制那些在没有后期视觉访问的情况下仍然很强的 tokens,并倾向于那些优势依赖于完整视觉路径的预测。在 POPE、CHAIR 和 AMBER 上使用 Qwen2.5-VL 和 LLaVA-v1.5 的实验表明,SIRA 始终如一地减少了幻觉,同时保留了描述性覆盖率,并且比两阶段对比解码产生了更低的开销。SIRA 不需要训练、外部验证器或扰动输入,并且适用于具有白盒推理访问权限的开源 LVLM。

🔬 方法详解

问题定义:大型视觉语言模型(LVLMs)容易产生幻觉,即生成与图像内容不符的信息。现有缓解幻觉的对比解码方法通常需要额外的外部工具,例如对输入图像进行扰动,然后比较原始图像和扰动图像的预测结果。这种方法的痛点在于,引入的外部扰动可能会产生非自然的伪影,并且需要额外的计算资源进行前向推理,效率较低。

核心思路:SIRA 的核心思路是在 LVLM 内部构建一个反事实参考,而无需依赖外部信息。通过在 Transformer 的中间层创建一个分支,该分支屏蔽了对图像 token 的注意力,从而模拟了缺乏视觉信息的场景。然后,将原始分支和反事实分支的输出进行对比,抑制那些在缺乏视觉信息的情况下仍然很强的 token,从而减少幻觉。

技术框架:SIRA 的整体框架包括以下几个主要步骤:1) 输入图像和文本提示经过 embedding 后,进入多模态 Transformer;2) 在 Transformer 的若干层之后,创建一个反事实分支,该分支屏蔽了对图像 token 的注意力;3) 原始分支和反事实分支并行进行后续的 Transformer 层计算;4) 对两个分支的输出进行对比,计算每个 token 的得分,并根据得分调整生成概率。

关键创新:SIRA 最重要的技术创新点在于其内部对比解码机制。与传统的对比解码方法不同,SIRA 不需要外部的扰动图像或验证器,而是在模型内部构建反事实参考。这种方法避免了引入外部伪影的风险,并且降低了计算成本。此外,SIRA 利用了 Transformer 的分层结构,可以在不同的层级上进行对比,从而更好地捕捉视觉信息和语言先验之间的关系。

关键设计:SIRA 的关键设计包括:1) 共享前缀:图像和文本 token 首先通过共享前缀进行交互,形成对齐的多模态状态,保留提示信息和解码历史;2) 注意力屏蔽:在反事实分支中,对图像 token 的注意力被屏蔽,模拟缺乏视觉信息的场景;3) Token 级别对比:对原始分支和反事实分支的输出进行 token 级别的对比,计算每个 token 的得分;4) 解码策略:在解码过程中,抑制那些在缺乏视觉信息的情况下仍然很强的 token,并倾向于那些优势依赖于完整视觉路径的预测。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在 POPE、CHAIR 和 AMBER 数据集上,使用 Qwen2.5-VL 和 LLaVA-v1.5 模型进行的实验表明,SIRA 能够显著减少幻觉,同时保持描述性覆盖率。与传统的两阶段对比解码方法相比,SIRA 具有更低的计算开销,且无需外部验证器或扰动输入。实验结果验证了 SIRA 的有效性和实用性。

🎯 应用场景

SIRA 可应用于各种需要减少视觉语言模型幻觉的场景,例如图像描述生成、视觉问答、机器人导航等。该方法无需额外训练和外部资源,易于部署和应用,具有广泛的应用前景。未来,可以进一步研究 SIRA 在其他模型架构和任务上的适用性,并探索更有效的内部对比策略。

📄 摘要(原文)

Large vision-language models (LVLMs) often hallucinate when language priors dominate weak or ambiguous visual evidence. Existing contrastive decoding methods mitigate this problem by comparing predictions from the original image with those from externally perturbed visual inputs, but such references can introduce off-manifold artifacts and require costly extra forward passes. We propose SIRA, a training-free internal contrastive decoding framework that constructs a counterfactual reference inside the same LVLM by exploiting the staged information flow of multimodal transformers. Instead of removing visual information from the input, SIRA first lets image and text tokens interact through a shared prefix, forming an aligned multimodal state that preserves prompt interpretation, decoding history, positional structure, and early visual grounding. It then forks a counterfactual branch in later transformer layers, where attention to image-token positions is masked. This branch retains the shared multimodal context but lacks continued access to fine-grained visual evidence, yielding a language-prior-dominated internal reference for token-level contrast. During decoding, SIRA suppresses tokens that remain strong without late visual access and favors predictions whose advantage depends on the full visual pathway. Experiments on POPE, CHAIR, and AMBER with Qwen2.5-VL and LLaVA-v1.5 show that SIRA consistently reduces hallucinations while preserving descriptive coverage and incurring lower overhead than two-pass contrastive decoding. SIRA requires no training, external verifier, or perturbed input, and applies to open-weight LVLMs with white-box inference access.