Learning from Fine-Grained Visual Discrepancies: Mitigating Multimodal Hallucinations via In-Context Visual Contrastive Optimization

📄 arXiv: 2605.31312v1 📥 PDF

作者: Haolin Deng, Xin Zou, Zhiwei Jin, Chen Chen, Haonan Lu, Xuming Hu

分类: cs.CV, cs.CL

发布日期: 2026-05-29

备注: ICML 2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出IC-VCO,通过上下文视觉对比优化缓解视觉语言模型中的多模态幻觉问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态幻觉 视觉语言模型 对比学习 直接偏好优化 负样本挖掘

📋 核心要点

  1. 现有视觉语言模型易产生多模态幻觉,标准文本DPO方法缺乏视觉监督,效果不佳。
  2. 提出IC-VCO,通过多图上下文对比学习,确保目标函数在数学上的一致性,缓解幻觉。
  3. 引入视觉对比蒸馏VCDist和对比样本编辑策略,实验表明IC-VCO在多个基准测试中表现最佳。

📝 摘要(中文)

多模态幻觉仍然是视觉语言模型(VLMs)面临的持续挑战。标准的文本直接偏好优化(DPO)由于缺乏显式的视觉监督,通常无法缓解这个问题。现有的工作通过将原始图像与负样本图像进行对比来引入视觉偏好DPO,但由于配分函数不匹配导致理论上不一致的目标,并且依赖于可能导致捷径学习的粗粒度负样本。本文提出了上下文视觉对比优化(IC-VCO)。通过将对比图像置于共享的多图像上下文中,IC-VCO确保了数学上严格的目标。进一步引入了视觉对比蒸馏(VCDist),这是一种辅助的可靠性门控正则化器,鼓励多图像对比训练和单图像推理之间的一致性。最后,提出了一种对比样本编辑策略,通过精确的语义扰动生成困难负样本。在五个基准测试上的实验表明,IC-VCO具有最佳的整体性能,并且我们的样本编辑策略是有效的。

🔬 方法详解

问题定义:视觉语言模型(VLM)在生成文本描述时,容易产生与图像内容不符的“幻觉”。现有的基于文本的直接偏好优化(DPO)方法,由于缺乏明确的视觉监督信号,难以有效缓解这一问题。一些工作尝试引入视觉对比学习,但存在理论上的不一致性(配分函数不匹配)以及容易学习到捷径(shortcut learning)的问题,因为负样本过于粗糙。

核心思路:本文的核心思路是通过构建一个多图像的上下文环境,将正样本图像和负样本图像放在一起进行对比学习。这种方式可以确保对比学习的目标函数在数学上是严格一致的,从而避免了配分函数不匹配的问题。同时,通过精细的负样本生成策略,避免模型学习到简单的捷径。

技术框架:IC-VCO的整体框架包含三个主要组成部分:1) 上下文视觉对比优化(IC-VCO):构建多图像上下文,进行对比学习;2) 视觉对比蒸馏(VCDist):利用可靠性门控的正则化器,保证多图像训练和单图像推理的一致性;3) 对比样本编辑:通过语义扰动生成困难负样本。

关键创新:本文最重要的创新点在于提出了上下文视觉对比学习的框架。与以往的视觉对比学习方法不同,IC-VCO将对比图像置于一个共享的上下文中,从而保证了目标函数的数学一致性。此外,提出的对比样本编辑策略,能够生成更具挑战性的负样本,避免模型学习到简单的捷径。

关键设计:在IC-VCO中,关键的设计包括:1) 多图像上下文的构建方式;2) 视觉对比蒸馏中可靠性门控正则化器的设计;3) 对比样本编辑策略中,语义扰动的具体方法。这些设计共同保证了IC-VCO的有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

IC-VCO在五个基准测试上取得了最佳的整体性能,证明了其有效性。特别地,对比样本编辑策略能够生成更具挑战性的负样本,显著提升了模型的性能。实验结果表明,IC-VCO能够有效地缓解视觉语言模型中的多模态幻觉问题,提高生成文本的准确性和一致性。

🎯 应用场景

该研究成果可应用于各种需要视觉语言理解和生成的场景,例如图像描述、视觉问答、图像编辑等。通过减少多模态幻觉,可以提高这些应用的可信度和可靠性,尤其是在医疗、金融等对准确性要求高的领域具有重要价值。未来,该方法可以进一步扩展到视频理解、机器人导航等更复杂的任务中。

📄 摘要(原文)

Multimodal hallucination remains a persistent challenge for Vision-Language Models (VLMs). Standard textual Direct Preference Optimization (DPO) often fails to mitigate it due to a lack of explicit visual supervision. While existing works introduce visual preference DPO by contrasting original images against negative ones, they suffer from a theoretically inconsistent objective caused by partition function mismatches and rely on coarse-grained negatives that could enable shortcut learning. In this work, we propose In-Context Visual Contrastive Optimization (IC-VCO). By placing contrastive images within a shared multi-image context, IC-VCO ensures a mathematically rigorous objective. We further introduce Visual Contrast Distillation (VCDist), an auxiliary reliability-gated regularizer that encourages consistency between multi-image contrastive training and single-image inference. Finally, we propose a contrastive sample editing strategy that generates hard negatives via precise semantic perturbations. Experiments on five benchmarks demonstrate IC-VCO's best overall performance and the effectiveness of our sample editing strategy. Code and data are available at https://github.com/OPPO-Mente-Lab/IC-VCO.