Learning from Fine-Grained Visual Discrepancies: Mitigating Multimodal Hallucinations via In-Context Visual Contrastive Optimization

作者: Haolin Deng, Xin Zou, Zhiwei Jin, Chen Chen, Haonan Lu, Xuming Hu

分类: cs.CV, cs.CL

发布日期: 2026-05-29

备注: ICML 2026

🔗 代码/项目: GITHUB

💡 一句话要点

提出IC-VCO，通过上下文视觉对比优化缓解视觉语言模型中的多模态幻觉问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态幻觉 视觉语言模型 对比学习 直接偏好优化 负样本挖掘

📋 核心要点

现有视觉语言模型易产生多模态幻觉，标准文本DPO方法缺乏视觉监督，效果不佳。
提出IC-VCO，通过多图上下文对比学习，确保目标函数在数学上的一致性，缓解幻觉。
引入视觉对比蒸馏VCDist和对比样本编辑策略，实验表明IC-VCO在多个基准测试中表现最佳。

📝 摘要（中文）

多模态幻觉仍然是视觉语言模型（VLMs）面临的持续挑战。标准的文本直接偏好优化（DPO）由于缺乏显式的视觉监督，通常无法缓解这个问题。现有的工作通过将原始图像与负样本图像进行对比来引入视觉偏好DPO，但由于配分函数不匹配导致理论上不一致的目标，并且依赖于可能导致捷径学习的粗粒度负样本。本文提出了上下文视觉对比优化（IC-VCO）。通过将对比图像置于共享的多图像上下文中，IC-VCO确保了数学上严格的目标。进一步引入了视觉对比蒸馏（VCDist），这是一种辅助的可靠性门控正则化器，鼓励多图像对比训练和单图像推理之间的一致性。最后，提出了一种对比样本编辑策略，通过精确的语义扰动生成困难负样本。在五个基准测试上的实验表明，IC-VCO具有最佳的整体性能，并且我们的样本编辑策略是有效的。

🔬 方法详解

问题定义：视觉语言模型（VLM）在生成文本描述时，容易产生与图像内容不符的“幻觉”。现有的基于文本的直接偏好优化（DPO）方法，由于缺乏明确的视觉监督信号，难以有效缓解这一问题。一些工作尝试引入视觉对比学习，但存在理论上的不一致性（配分函数不匹配）以及容易学习到捷径（shortcut learning）的问题，因为负样本过于粗糙。

核心思路：本文的核心思路是通过构建一个多图像的上下文环境，将正样本图像和负样本图像放在一起进行对比学习。这种方式可以确保对比学习的目标函数在数学上是严格一致的，从而避免了配分函数不匹配的问题。同时，通过精细的负样本生成策略，避免模型学习到简单的捷径。

技术框架：IC-VCO的整体框架包含三个主要组成部分：1) 上下文视觉对比优化（IC-VCO）：构建多图像上下文，进行对比学习；2) 视觉对比蒸馏（VCDist）：利用可靠性门控的正则化器，保证多图像训练和单图像推理的一致性；3) 对比样本编辑：通过语义扰动生成困难负样本。

关键创新：本文最重要的创新点在于提出了上下文视觉对比学习的框架。与以往的视觉对比学习方法不同，IC-VCO将对比图像置于一个共享的上下文中，从而保证了目标函数的数学一致性。此外，提出的对比样本编辑策略，能够生成更具挑战性的负样本，避免模型学习到简单的捷径。

关键设计：在IC-VCO中，关键的设计包括：1) 多图像上下文的构建方式；2) 视觉对比蒸馏中可靠性门控正则化器的设计；3) 对比样本编辑策略中，语义扰动的具体方法。这些设计共同保证了IC-VCO的有效性。

🖼️ 关键图片

📊 实验亮点

IC-VCO在五个基准测试上取得了最佳的整体性能，证明了其有效性。特别地，对比样本编辑策略能够生成更具挑战性的负样本，显著提升了模型的性能。实验结果表明，IC-VCO能够有效地缓解视觉语言模型中的多模态幻觉问题，提高生成文本的准确性和一致性。

🎯 应用场景

该研究成果可应用于各种需要视觉语言理解和生成的场景，例如图像描述、视觉问答、图像编辑等。通过减少多模态幻觉，可以提高这些应用的可信度和可靠性，尤其是在医疗、金融等对准确性要求高的领域具有重要价值。未来，该方法可以进一步扩展到视频理解、机器人导航等更复杂的任务中。

📄 摘要（原文）

Multimodal hallucination remains a persistent challenge for Vision-Language Models (VLMs). Standard textual Direct Preference Optimization (DPO) often fails to mitigate it due to a lack of explicit visual supervision. While existing works introduce visual preference DPO by contrasting original images against negative ones, they suffer from a theoretically inconsistent objective caused by partition function mismatches and rely on coarse-grained negatives that could enable shortcut learning. In this work, we propose In-Context Visual Contrastive Optimization (IC-VCO). By placing contrastive images within a shared multi-image context, IC-VCO ensures a mathematically rigorous objective. We further introduce Visual Contrast Distillation (VCDist), an auxiliary reliability-gated regularizer that encourages consistency between multi-image contrastive training and single-image inference. Finally, we propose a contrastive sample editing strategy that generates hard negatives via precise semantic perturbations. Experiments on five benchmarks demonstrate IC-VCO's best overall performance and the effectiveness of our sample editing strategy. Code and data are available at https://github.com/OPPO-Mente-Lab/IC-VCO.

Learning from Fine-Grained Visual Discrepancies: Mitigating Multimodal Hallucinations via In-Context Visual Contrastive Optimization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理