INTER: Mitigating Hallucination in Large Vision-Language Models by Interaction Guidance Sampling

📄 arXiv: 2507.05056v2 📥 PDF

作者: Xin Dong, Shichao Dong, Jin Wang, Jing Huang, Li Zhou, Zenghui Sun, Lihua Jing, Jingsong Lan, Xiaoyong Zhu, Bo Zheng

分类: cs.CV, cs.AI

发布日期: 2025-07-07 (更新: 2025-07-22)

备注: Accepted by ICCV 2025


💡 一句话要点

提出INTER:通过交互引导采样缓解大型视觉语言模型中的幻觉问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 幻觉缓解 交互引导采样 多模态学习 免训练算法

📋 核心要点

  1. 大型视觉语言模型容易产生幻觉,生成与视觉内容不符的响应,限制了其在实际场景中的应用。
  2. INTER通过交互引导采样,显式地引导模型重新利用多模态交互信息,从而减少幻觉的产生。
  3. 在多个VQA和图像描述基准测试中,INTER在多个LVLM上实现了显著的性能提升,平均提升高达3.4%。

📝 摘要(中文)

大型视觉语言模型(LVLMs)中的幻觉问题对实际应用构成重大挑战,因为LVLMs可能会生成看似合理但与相关视觉内容不一致的响应。这个问题在人类认知中很少发生。我们认为这种差异源于人类能够有效地利用数据样本中的多模态交互信息。具体来说,人类通常首先收集多模态信息,分析跨模态的交互以进行理解,然后通过语言表达他们的理解。受此观察的启发,我们对流行的LVLMs进行了广泛的实验,并获得了惊人的见解,揭示了LVLMs在多模态样本上类似人类的认知行为,尽管不太明显。基于这些发现,我们进一步提出了INTER:交互引导采样,这是一种新颖的免训练算法,可在不需要额外数据的情况下减轻幻觉。具体来说,INTER显式地引导LVLMs在生成响应时有效地重新应用它们对多模态交互信息的理解,从而减少潜在的幻觉。在包括VQA和图像字幕任务在内的六个基准测试中,与最先进的解码策略相比,INTER在五个LVLMs上实现了平均高达3.4%的改进。代码将在论文被接受后发布。

🔬 方法详解

问题定义:论文旨在解决大型视觉语言模型(LVLMs)中存在的幻觉问题,即模型生成的文本描述与输入图像内容不一致。现有方法通常依赖于额外的数据或复杂的训练策略,计算成本高昂,且泛化能力有限。

核心思路:论文的核心思路是模仿人类的认知过程,即在理解图像内容时,人类会主动分析不同模态之间的交互信息。INTER算法通过引导LVLMs重新利用其自身对多模态交互信息的理解,从而减少幻觉的产生。这种方法无需额外数据或训练,具有更高的效率和通用性。

技术框架:INTER算法是一个训练无关的解码策略,可以应用于现有的LVLMs。其主要流程包括:1) 使用LVLM生成多个候选文本描述;2) 对于每个候选描述,计算其与输入图像之间的交互信息(具体计算方法未知);3) 基于交互信息对候选描述进行加权,选择具有更高交互信息的描述作为最终输出。

关键创新:INTER算法的关键创新在于其交互引导采样的思想,即通过显式地利用模型自身对多模态交互信息的理解来减少幻觉。与现有方法相比,INTER无需额外数据或训练,具有更高的效率和通用性。此外,该方法模拟了人类的认知过程,具有一定的理论意义。

关键设计:论文中没有详细描述交互信息的具体计算方法,以及如何对候选描述进行加权。这些细节是INTER算法的关键设计,但目前未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

INTER算法在六个基准测试中,包括VQA和图像字幕任务,与最先进的解码策略相比,在五个LVLMs上实现了平均高达3.4%的改进。这一结果表明,INTER算法能够有效地减少LVLMs中的幻觉,并提高其性能。

🎯 应用场景

该研究成果可应用于各种需要可靠视觉语言理解的场景,例如智能客服、自动驾驶、医疗诊断等。通过减少幻觉,可以提高LVLMs在这些场景中的应用可靠性和安全性。未来,该方法有望进一步推广到其他多模态任务中,例如视频理解、语音识别等。

📄 摘要(原文)

Hallucinations in large vision-language models (LVLMs) pose significant challenges for real-world applications, as LVLMs may generate responses that appear plausible yet remain inconsistent with the associated visual content. This issue rarely occurs in human cognition. We argue that this discrepancy arises from humans' ability to effectively leverage multimodal interaction information in data samples. Specifically, humans typically first gather multimodal information, analyze the interactions across modalities for understanding, and then express their understanding through language. Motivated by this observation, we conduct extensive experiments on popular LVLMs and obtained insights that surprisingly reveal human-like, though less pronounced, cognitive behavior of LVLMs on multimodal samples. Building on these findings, we further propose \textbf{INTER}: \textbf{Inter}action Guidance Sampling, a novel training-free algorithm that mitigate hallucinations without requiring additional data. Specifically, INTER explicitly guides LVLMs to effectively reapply their understanding of multimodal interaction information when generating responses, thereby reducing potential hallucinations. On six benchmarks including VQA and image captioning tasks, INTER achieves an average improvement of up to 3.4\% on five LVLMs compared to the state-of-the-art decoding strategy. The code will be released when the paper is accepted.