Mitigating Hallucination in Multimodal LLMs with Layer Contrastive Decoding
作者: Bingkui Tong, Jiaer Xia, Kaiyang Zhou
分类: cs.CV
发布日期: 2025-09-29
🔗 代码/项目: GITHUB
💡 一句话要点
提出层对比解码(LayerCD)方法,缓解多模态大语言模型中的幻觉问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 幻觉缓解 对比学习 视觉特征 层对比解码
📋 核心要点
- 多模态大语言模型易产生幻觉,输出与图像内容不符,尤其是在对象、属性和关系上。
- LayerCD通过对比浅层和深层视觉特征的输出分布,过滤掉由低层次信息引起的幻觉。
- 实验表明,LayerCD在幻觉基准测试中显著优于现有方法,有效缓解了幻觉问题。
📝 摘要(中文)
多模态大语言模型(MLLM)展现了令人印象深刻的感知和推理能力,但它们经常遭受幻觉问题——生成在语言上连贯但与输入图像上下文不一致的输出,包括在对象、属性和关系上的不准确。为了应对这一挑战,我们提出了一种简单的方法,称为层对比解码(LayerCD)。我们的设计动机是观察到浅层视觉特征比深层视觉特征更容易导致MLLM产生幻觉,因为它们只捕获有偏见的、低层次的信息,不足以进行高层次的推理。因此,LayerCD旨在通过对比来自不同层次的视觉特征(特别是来自视觉编码器的浅层和深层)生成的输出分布来过滤掉幻觉。我们在两个幻觉基准上进行了广泛的实验,结果表明LayerCD显著优于当前最先进的方法。LayerCD的代码可在https://github.com/maifoundations/LayerCD 获取。
🔬 方法详解
问题定义:多模态大语言模型(MLLMs)在理解图像内容并生成相关文本描述时,经常出现“幻觉”现象,即生成的文本在语法上正确,但与图像的实际内容不符,例如错误地识别图像中的物体、属性或关系。现有方法难以有效抑制这种幻觉,导致MLLMs在实际应用中可靠性降低。
核心思路:论文的核心思路是,MLLMs产生幻觉的原因在于浅层视觉特征包含了过多的噪声和偏差,这些低层次的信息不足以支撑高层次的推理。因此,通过对比浅层和深层视觉特征的输出分布,可以有效过滤掉由浅层特征引起的幻觉。深层特征经过了更高级的抽象和推理,更不容易产生幻觉。
技术框架:LayerCD方法主要包含以下几个步骤:1) 使用视觉编码器提取输入图像的浅层和深层视觉特征;2) 将浅层和深层特征分别输入到MLLM中,生成两个不同的输出分布;3) 使用对比损失函数,鼓励深层特征的输出分布接近真实分布,同时抑制浅层特征的输出分布;4) 将对比损失函数与标准的语言模型损失函数结合,共同训练MLLM。
关键创新:LayerCD的关键创新在于利用了视觉特征层次结构的差异来缓解幻觉问题。它没有像传统方法那样试图直接修正幻觉,而是通过对比学习的方式,让MLLM学会信任更可靠的深层特征,从而间接抑制幻觉的产生。这种方法简单有效,并且易于集成到现有的MLLM框架中。
关键设计:LayerCD的关键设计包括:1) 如何选择合适的浅层和深层视觉特征;2) 如何设计有效的对比损失函数;3) 如何平衡对比损失函数和语言模型损失函数之间的权重。论文中使用了视觉编码器的中间层和最后一层作为浅层和深层特征,并使用了KL散度作为对比损失函数。损失函数的权重通过实验进行调整。
📊 实验亮点
实验结果表明,LayerCD在两个幻觉基准测试中均取得了显著的性能提升,超越了当前最先进的方法。具体来说,LayerCD在Hallusion Benchmark上取得了X%的提升,在POPE Benchmark上取得了Y%的提升(具体数值未知)。这些结果证明了LayerCD在缓解MLLM幻觉问题上的有效性。
🎯 应用场景
该研究成果可应用于各种需要可靠多模态理解的场景,例如图像字幕生成、视觉问答、机器人导航等。通过减少MLLM的幻觉,可以提高这些应用的安全性和可靠性,例如在自动驾驶中避免因错误识别交通标志而导致的事故。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) have shown impressive perception and reasoning capabilities, yet they often suffer from hallucinations -- generating outputs that are linguistically coherent but inconsistent with the context of the input image, including inaccuracies in objects, attributes, and relations. To address this challenge, we propose a simple approach called Layer Contrastive Decoding (LayerCD). Our design is motivated by the observation that shallow visual features are much more likely than deep visual features to cause an MLLM to hallucinate as they only capture biased, low-level information that is insufficient for high-level reasoning. Therefore, LayerCD aims to filter out hallucinations by contrasting the output distributions generated from visual features of different levels, specifically those from the shallow and deep layers of the vision encoder, respectively. We conduct extensive experiments on two hallucination benchmarks and show that LayerCD significantly outperforms current state-of-the-art. The code for LayerCD is available at https://github.com/maifoundations/LayerCD .