Fighting Hallucinations with Counterfactuals: Diffusion-Guided Perturbations for LVLM Hallucination Suppression
作者: Hamidreza Dastmalchi, Aijun An, Ali Cheraghian, Hamed Barzamini
分类: cs.CV
发布日期: 2026-03-11
备注: CVPR 2026
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出CIPHER,通过扩散引导的对抗扰动抑制LVLM的幻觉问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 幻觉抑制 对抗样本 扩散模型 特征表示
📋 核心要点
- 现有LVLM容易产生幻觉,即生成与视觉输入不符的内容,影响模型可靠性。
- CIPHER通过生成对抗图像,提取幻觉相关的特征表示,并在推理时抑制这些特征,从而减少幻觉。
- 实验表明,CIPHER能显著降低幻觉率,同时保持模型在其他任务上的性能。
📝 摘要(中文)
大型视觉语言模型(LVLMs)在多模态任务中表现出色,但经常产生幻觉,即生成与视觉输入不符的输出。为了解决这个问题,我们提出了一种名为CIPHER(用于幻觉提取和消除的对抗图像扰动)的免训练方法,该方法通过轻量级的特征级校正来抑制视觉引起的幻觉。与之前主要关注文本引起的幻觉的免训练方法不同,CIPHER明确针对由视觉模态引起的幻觉。CIPHER分两个阶段运行。在离线阶段,我们构建了OHC-25K(对象幻觉对抗样本,25,000个样本),这是一个对抗数据集,由扩散编辑的图像组成,这些图像有意地与原始的ground-truth caption相矛盾。我们将这些编辑后的图像与未更改的ground-truth caption配对,并通过LVLM处理它们以提取与幻觉相关的表示。将这些表示与来自真实(图像,caption)对的表示进行对比,揭示了跨越低秩子空间的结构化、系统性变化,这些变化表征了视觉引起的幻觉。在推理阶段,CIPHER通过将中间隐藏状态投影远离该子空间来抑制幻觉。跨多个基准的实验表明,CIPHER显著降低了幻觉率,同时保持了任务性能,证明了对抗视觉扰动在提高LVLM保真度方面的有效性。
🔬 方法详解
问题定义:论文旨在解决大型视觉语言模型(LVLMs)中存在的视觉诱导幻觉问题。现有方法主要关注文本诱导的幻觉,而忽略了视觉信息错误解读导致的幻觉。这些幻觉降低了LVLM的可靠性和实用性。
核心思路:CIPHER的核心思路是通过对抗样本学习幻觉的特征表示,并在推理阶段抑制这些表示。具体来说,通过扩散模型生成与原始图像caption相矛盾的对抗图像,迫使LVLM产生幻觉,从而提取幻觉相关的特征。
技术框架:CIPHER包含两个主要阶段:离线阶段和推理阶段。在离线阶段,首先构建OHC-25K数据集,该数据集包含原始图像、caption以及通过扩散模型编辑的对抗图像。然后,使用LVLM处理这些数据,提取幻觉相关的特征表示。通过对比真实图像-caption对和对抗图像-caption对的特征表示,学习一个低秩子空间,该子空间表征了视觉诱导的幻觉。在推理阶段,对于给定的图像和文本,CIPHER将LVLM的中间隐藏状态投影到该子空间的补空间,从而抑制幻觉。
关键创新:CIPHER的关键创新在于使用对抗样本来显式地提取和抑制视觉诱导的幻觉。与现有方法不同,CIPHER直接针对视觉模态的错误信息进行处理,从而更有效地减少幻觉。此外,CIPHER是一种免训练方法,无需对LVLM进行微调。
关键设计:OHC-25K数据集的构建依赖于扩散模型,通过控制扩散过程,可以生成与原始图像caption语义矛盾的对抗图像。特征表示的提取和子空间的学习依赖于对比学习的思想,通过最大化真实图像-caption对的相似性,最小化对抗图像-caption对的相似性,从而学习到幻觉相关的特征表示。在推理阶段,使用奇异值分解(SVD)来计算投影矩阵,将隐藏状态投影到幻觉子空间的补空间。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CIPHER在多个基准测试中显著降低了LVLM的幻觉率,例如在POPE数据集上取得了显著的提升。同时,CIPHER在减少幻觉的同时,保持了模型在其他任务上的性能,例如图像描述和视觉问答。
🎯 应用场景
CIPHER可应用于各种需要高可靠性的视觉语言任务,例如医疗诊断、自动驾驶、智能客服等。通过减少LVLM的幻觉,可以提高这些应用的安全性和准确性,增强用户信任度。此外,该方法还可以作为一种通用的幻觉抑制技术,集成到现有的LVLM系统中。
📄 摘要(原文)
While large vision-language models (LVLMs) achieve strong performance on multimodal tasks, they frequently generate hallucinations -- unfaithful outputs misaligned with the visual input. To address this issue, we introduce CIPHER (Counterfactual Image Perturbations for Hallucination Extraction and Removal), a training-free method that suppresses vision-induced hallucinations via lightweight feature-level correction. Unlike prior training-free approaches that primarily focus on text-induced hallucinations, CIPHER explicitly targets hallucinations arising from the visual modality. CIPHER operates in two phases. In the offline phase, we construct OHC-25K (Object-Hallucinated Counterfactuals, 25,000 samples), a counterfactual dataset consisting of diffusion-edited images that intentionally contradict the original ground-truth captions. We pair these edited images with the unchanged ground-truth captions and process them through an LVLM to extract hallucination-related representations. Contrasting these representations with those from authentic (image, caption) pairs reveals structured, systematic shifts spanning a low-rank subspace characterizing vision-induced hallucination. In the inference phase, CIPHER suppresses hallucinations by projecting intermediate hidden states away from this subspace. Experiments across multiple benchmarks show that CIPHER significantly reduces hallucination rates while preserving task performance, demonstrating the effectiveness of counterfactual visual perturbations for improving LVLM faithfulness. Code and additional materials are available at https://hamidreza-dastmalchi.github.io/cipher-cvpr2026/.