Investigating and Mitigating the Multimodal Hallucination Snowballing in Large Vision-Language Models

📄 arXiv: 2407.00569v4 📥 PDF

作者: Weihong Zhong, Xiaocheng Feng, Liang Zhao, Qiming Li, Lei Huang, Yuxuan Gu, Weitao Ma, Yuan Xu, Bing Qin

分类: cs.CV, cs.AI, cs.CL

发布日期: 2024-06-30 (更新: 2024-08-03)

备注: Accepted to ACL 2024 Main Conference. 21 pages, 20 figures


💡 一句话要点

提出MMHalSnowball框架,揭示并缓解大视觉语言模型中多模态幻觉滚雪球效应

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态幻觉 视觉语言模型 幻觉滚雪球 残差视觉解码 多轮对话

📋 核心要点

  1. 现有LVLMs在多模态交互中易受先前生成幻觉的误导,导致后续生成错误,即“幻觉滚雪球”现象。
  2. 提出MMHalSnowball框架评估幻觉滚雪球效应,并设计残差视觉解码方法,直接利用视觉信息修正模型输出。
  3. 实验表明,LVLMs在该框架下性能显著下降,而所提方法能有效缓解幻觉滚雪球效应,性能提升超过24%。

📝 摘要(中文)

大型视觉语言模型(LVLMs)在理解视觉信息和人类语言方面取得了显著进展,但仍然存在多模态幻觉问题。一个自然的问题是,在多模态交互过程中,生成的幻觉是否会影响LVLMs的后续生成。本文提出了一个名为MMHalSnowball的框架,用于评估LVLMs在遇到生成的幻觉时的行为。该框架要求LVLMs在精心设计的幻觉对话中回答特定的视觉问题。实验结果表明,开源LVLMs的性能下降至少31%,表明LVLMs容易接受生成的幻觉,并做出在没有干扰的情况下不会支持的错误声明。我们将这种现象称为多模态幻觉滚雪球效应。为了缓解这个问题,我们进一步提出了一种名为残差视觉解码的免训练方法,该方法利用来自残差视觉输入的输出来修正LVLMs的输出分布,为模型提供直接访问视觉信息的能力。实验表明,我们的方法可以缓解超过24%的滚雪球式多模态幻觉,同时保持模型的能力。

🔬 方法详解

问题定义:论文旨在解决大型视觉语言模型(LVLMs)在多轮对话中,由于先前生成的幻觉信息而导致后续生成错误的问题,即“多模态幻觉滚雪球”效应。现有方法未能有效解决LVLMs在多轮交互中对幻觉信息的累积和放大问题,导致模型产生与真实视觉信息不符的错误回答。

核心思路:论文的核心思路是,通过构建一个专门的评估框架来量化幻觉滚雪球效应,并提出一种免训练的方法,即残差视觉解码,来缓解该效应。残差视觉解码的核心思想是,在模型生成答案时,显式地利用原始视觉输入的信息,以纠正或抑制由于先前幻觉信息导致的错误预测。

技术框架:整体框架包含两个主要部分:MMHalSnowball评估框架和残差视觉解码方法。MMHalSnowball框架首先构建一个包含幻觉信息的对话历史,然后向LVLM提出与视觉信息相关的问题。残差视觉解码方法则是在LVLM生成答案时,利用原始视觉输入的信息来修正输出分布。具体来说,首先从视觉输入中提取特征,然后利用这些特征来调整LVLM的输出概率分布,从而使模型更倾向于选择与真实视觉信息一致的答案。

关键创新:论文的关键创新在于:1) 首次提出了“多模态幻觉滚雪球”的概念,并构建了相应的评估框架;2) 提出了一种免训练的残差视觉解码方法,该方法能够有效缓解幻觉滚雪球效应,而无需重新训练模型。这种免训练的特性使得该方法可以方便地应用于各种现有的LVLMs。

关键设计:残差视觉解码的关键设计在于如何有效地利用视觉信息来修正LVLM的输出分布。具体来说,论文首先使用一个预训练的视觉编码器(例如,CLIP)来提取视觉特征。然后,将这些视觉特征与LVLM的输出logits进行融合,得到修正后的logits。修正后的logits可以通过加权平均或者更复杂的融合方式得到。论文中具体使用的融合方式和权重参数的选择可能需要根据具体的实验结果进行调整。

📊 实验亮点

实验结果表明,在MMHalSnowball框架下,开源LVLMs的性能下降至少31%,验证了幻觉滚雪球效应的存在。提出的残差视觉解码方法能够缓解超过24%的滚雪球式多模态幻觉,同时保持模型原有的能力。这些结果表明,该方法在缓解幻觉问题方面具有显著效果。

🎯 应用场景

该研究成果可应用于提升视觉语言模型在多轮交互场景下的可靠性和准确性,例如智能客服、视觉辅助导航、智能教育等领域。通过缓解幻觉滚雪球效应,可以提高用户对模型的信任度,并减少因错误信息导致的负面影响。未来,该方法有望推广到更广泛的多模态任务中。

📄 摘要(原文)

Though advanced in understanding visual information with human languages, Large Vision-Language Models (LVLMs) still suffer from multimodal hallucinations. A natural concern is that during multimodal interaction, the generated hallucinations could influence the LVLMs' subsequent generation. Thus, we raise a question: When presented with a query relevant to the previously generated hallucination, will LVLMs be misled and respond incorrectly, even though the ground visual information exists? To answer this, we propose a framework called MMHalSnowball to evaluate LVLMs' behaviors when encountering generated hallucinations, where LVLMs are required to answer specific visual questions within a curated hallucinatory conversation. Crucially, our experiment shows that the performance of open-source LVLMs drops by at least $31\%$, indicating that LVLMs are prone to accept the generated hallucinations and make false claims that they would not have supported without distractions. We term this phenomenon Multimodal Hallucination Snowballing. To mitigate this, we further propose a training-free method called Residual Visual Decoding, where we revise the output distribution of LVLMs with the one derived from the residual visual input, providing models with direct access to the visual information. Experiments show that our method can mitigate more than $24\%$ of the snowballed multimodal hallucination while maintaining capabilities.