Extracting Visual Facts from Intermediate Layers for Mitigating Hallucinations in Multimodal Large Language Models

📄 arXiv: 2507.15652v1 📥 PDF

作者: Haoran Zhou, Zihan Zhang, Hao Chen

分类: cs.CV

发布日期: 2025-07-21


💡 一句话要点

提出EVA方法,通过提取中间层视觉信息缓解多模态大语言模型中的幻觉问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 幻觉缓解 视觉事实提取 中间层特征 知识融合

📋 核心要点

  1. 多模态大语言模型存在对象幻觉问题,即生成图像中不存在的对象,现有研究表明深层视觉信息被先验知识抑制。
  2. 论文提出EVA方法,通过动态选择中间层,提取视觉事实知识,并将其整合到最后一层,以校正输出logits。
  3. EVA方法是模型无关的,可以与各种解码策略集成,实验结果表明,与基线方法相比,显著降低了幻觉率。

📝 摘要(中文)

多模态大语言模型(MLLM)通过结合视觉识别和语言理解,在生成连贯且上下文准确的内容方面取得了显著进展。然而,MLLM仍然存在对象幻觉问题,即模型产生看似合理但实际上不正确的输出,包括图像中不存在的对象。最近的研究表明,MLLM中的先验知识会显著抑制深层中的视觉信息,导致幻觉输出。然而,这些先验如何在MLLM的中间层抑制视觉信息仍不清楚。我们观察到,视觉事实知识和中间层先验/原始概率分布之间的差异在中间层中表现出相似的演变趋势。受此启发,我们提出了解码方法,通过提取视觉事实(EVA)来动态选择具有最显著视觉事实信息的中间层。通过对比原始输入和纯文本输入得到的所选层的输出分布,EVA提取视觉事实知识,并将其按比例整合到最后一层,以校正输出logits。重要的是,EVA是模型无关的,可以无缝地与各种经典解码策略集成,并适用于不同的MLLM。我们在广泛使用的基准上验证了EVA,结果表明,与基线方法相比,它显著降低了幻觉率,突显了其在缓解幻觉方面的有效性。

🔬 方法详解

问题定义:多模态大语言模型(MLLM)在生成内容时,会产生对象幻觉,即生成图像中不存在的对象。现有方法未能充分利用中间层的视觉信息,深层视觉信息容易被先验知识抑制,导致幻觉问题。

核心思路:论文的核心思路是,中间层包含丰富的视觉事实信息,通过动态选择包含最显著视觉事实信息的中间层,并提取其中的视觉知识,可以有效缓解幻觉问题。选择中间层的依据是视觉事实知识和中间层先验/原始概率分布之间的差异,二者在中间层表现出相似的演变趋势。

技术框架:EVA方法主要包含以下几个阶段:1) 输入图像和纯文本提示到MLLM;2) 提取MLLM中间层的输出分布;3) 基于视觉事实知识和概率分布差异,动态选择包含最显著视觉事实信息的中间层;4) 对比原始输入和纯文本输入得到的所选层的输出分布,提取视觉事实知识;5) 将提取的视觉事实知识按比例整合到最后一层,以校正输出logits。

关键创新:EVA方法的关键创新在于:1) 提出了一种动态选择中间层的方法,能够自适应地选择包含最丰富视觉信息的层;2) 提出了一种从中间层提取视觉事实知识的方法,通过对比原始输入和纯文本输入的输出分布,有效提取视觉信息;3) EVA方法是模型无关的,可以应用于不同的MLLM和解码策略,具有良好的泛化能力。

关键设计:EVA方法的关键设计包括:1) 中间层选择策略:基于视觉事实知识和概率分布差异的相似演变趋势,设计合适的指标来选择中间层;2) 视觉事实知识提取策略:通过对比原始输入和纯文本输入的输出分布,设计合适的算法来提取视觉事实知识;3) 知识整合策略:设计合适的比例因子,将提取的视觉事实知识整合到最后一层,以校正输出logits。具体的参数设置和损失函数等细节在论文中未明确说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,EVA方法在多个广泛使用的基准测试中,显著降低了多模态大语言模型的幻觉率。具体性能数据和提升幅度在摘要中未明确给出,属于未知信息。但论文强调,与基线方法相比,EVA在缓解幻觉方面表现出显著的有效性。

🎯 应用场景

该研究成果可应用于各种需要多模态信息融合的场景,例如图像描述生成、视觉问答、机器人导航等。通过降低多模态大语言模型中的幻觉问题,可以提高生成内容的可靠性和准确性,从而提升用户体验和应用价值。未来,该方法可以进一步扩展到其他多模态任务和模型中,具有广阔的应用前景。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) have made significant strides by combining visual recognition and language understanding to generate content that is both coherent and contextually accurate. However, MLLMs continue to struggle with object hallucinations, where models produce seemingly plausible but factually incorrect outputs, including objects that do not exist in the image. Recent work has revealed that the prior knowledge in MLLMs significantly suppresses visual information in deep layers, causing hallucinatory outputs. However, how these priors suppress visual information at the intermediate layer stage in MLLMs remains unclear. We observe that visual factual knowledge and the differences between intermediate-layer prior/original probability distributions show similar evolutionary trends in intermediate layers. Motivated by this, we introduce Decoding by Extracting Visual Facts (EVA), a simple, training-free method that dynamically selects intermediate layers with the most significant visual factual information. By contrasting the output distributions of the selected layer derived from the original input and pure-text input, EVA extracts visual factual knowledge and proportionally incorporates it into the final layer to correct the output logits. Importantly, EVA is model-agnostic, seamlessly integrates with various classic decoding strategies, and is applicable across different MLLMs. We validate EVA on widely-used benchmarks, and the results show that it significantly reduces hallucination rates compared to baseline methods, underscoring its effectiveness in mitigating hallucinations.