Mitigating Visual Hallucinations via Semantic Curriculum Preference Optimization in MLLMs

📄 arXiv: 2509.24491v1 📥 PDF

作者: Yuanshuai Li, Yuping Yan, Junfeng Tang, Yunxuan Li, Zeqi Zheng, Yaochu Jin

分类: cs.CV, cs.AI

发布日期: 2025-09-29


💡 一句话要点

提出SCPO框架,通过语义课程偏好优化缓解多模态大语言模型中的视觉幻觉问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视觉幻觉 语义课程学习 偏好优化 模型对齐

📋 核心要点

  1. MLLM存在视觉幻觉问题,即生成内容与视觉信息不符,现有DPO方法难以捕捉细粒度语义差异。
  2. SCPO构建语义课程偏好对数据集,采用由易到难的课程学习,并使用动态参考模型和对称双向目标。
  3. 实验表明,SCPO显著降低了视觉幻觉率,最高达62.9%,并在通用基准测试中保持了良好的性能。

📝 摘要(中文)

多模态大语言模型(MLLM)在各种任务上的性能得到了显著提高,但仍然存在视觉幻觉问题,即生成的响应与视觉证据相矛盾。直接偏好优化(DPO)被广泛用于对齐,但其在MLLM中的应用通常无法捕捉细粒度的语义差异,并鼓励捷径学习。为了解决这些挑战,我们提出了一种用于MLLM对齐的新框架——语义课程偏好优化(SCPO)。SCPO采用了一种渐进的、由易到难的课程,该课程建立在我们提出的语义课程偏好对数据集之上,该数据集提供了按难度排序的细粒度语义对比。该课程使用动态参考模型和一个新的对称、双向目标进行训练,以促进同时从文本和视觉偏好中学习。据我们所知,SCPO是第一个统一语义、对称性和课程用于MLLM对齐的框架,有效地缓解了视觉幻觉。在各种规模和版本的LLaVA模型上进行的大量实验验证了SCPO在多个幻觉基准测试中表现出优于基线模型的性能,幻觉率降低了高达62.9%。此外,在通用基准测试上的评估表明,SCPO提高了事实性,同时保留了一般能力,其性能在通用视觉语言基准测试中保持稳定。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型(MLLM)中普遍存在的视觉幻觉问题。现有的直接偏好优化(DPO)方法在应用于MLLM时,无法有效捕捉细粒度的语义差异,容易导致模型学习捷径,从而产生与视觉信息不一致的输出。这种视觉幻觉严重影响了MLLM在实际应用中的可靠性。

核心思路:论文的核心思路是通过引入语义课程学习和对称偏好优化,使MLLM能够更好地理解和利用视觉信息,从而减少视觉幻觉。具体来说,构建一个由易到难的语义课程,让模型逐步学习细粒度的语义差异;同时,采用对称的双向优化目标,鼓励模型同时从文本和视觉偏好中学习,从而提高模型的泛化能力。

技术框架:SCPO框架主要包含以下几个关键模块:1) 语义课程偏好对数据集构建:该数据集包含一系列语义对比鲜明的图像-文本对,并按照难度进行排序。2) 动态参考模型:在训练过程中,使用动态更新的参考模型来稳定训练过程,避免模型过拟合。3) 对称双向优化目标:设计一个对称的损失函数,同时考虑文本和视觉偏好,使得模型能够从两个模态的信息中相互学习和增强。

关键创新:SCPO的关键创新在于将语义课程学习、对称偏好优化和动态参考模型相结合,用于MLLM的对齐。与传统的DPO方法相比,SCPO能够更好地捕捉细粒度的语义差异,避免模型学习捷径,从而更有效地缓解视觉幻觉。此外,SCPO框架是第一个统一语义、对称性和课程用于MLLM对齐的框架。

关键设计:语义课程偏好对数据集的设计是关键。数据集中的图像-文本对需要具有语义上的对比性,并且按照难度进行排序,以便模型能够逐步学习。对称双向优化目标的设计也至关重要,需要平衡文本和视觉偏好,避免模型过度依赖其中一个模态的信息。动态参考模型的更新策略需要仔细调整,以保证训练的稳定性和收敛性。具体的损失函数形式和超参数设置需要在实验中进行调整和优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SCPO在多个幻觉基准测试中显著优于基线模型,视觉幻觉率降低高达62.9%。此外,在通用视觉语言基准测试中,SCPO保持了良好的性能,表明其在提高事实性的同时,没有牺牲模型的一般能力。这些结果验证了SCPO框架的有效性和泛化能力。

🎯 应用场景

SCPO框架可应用于各种需要可靠视觉理解的多模态应用场景,例如:自动驾驶、智能客服、医疗诊断等。通过减少视觉幻觉,可以提高这些应用的安全性和准确性,从而提升用户体验和降低风险。未来,该研究可以进一步扩展到其他多模态任务,例如视频理解和语音识别。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) have significantly improved the performance of various tasks, but continue to suffer from visual hallucinations, a critical issue where generated responses contradict visual evidence. While Direct Preference Optimization(DPO) is widely used for alignment, its application to MLLMs often fails to capture fine-grained semantic differences and encourages shortcut learning. To address these challenges, we propose Semantic Curriculum Preference Optimization (SCPO), a novel framework for MLLM alignment. SCPO employs a progressive, easy-to-hard curriculum built upon our Semantic Curriculum Preference Pairs dataset, which provides fine-grained semantic contrasts sorted by difficulty. This curriculum is trained with a dynamic reference model and a novel symmetric, bidirectional objective to facilitate simultaneous learning from both textual and visual preferences. To our knowledge, SCPO is the first framework to unify semantics, symmetry, and curriculum for MLLMs alignment, effectively mitigating visual hallucinations. Extensive experiments on LLaVA models across various scales and versions validate that SCPO demonstrates superior performance compared to baseline models on multiple hallucination benchmarks, reducing the hallucination rate by up to 62.9%. Moreover, evaluations on generalized benchmarks show that SCPO improves factuality while preserving general capabilities, with its performance remaining stable across general vision-language benchmarks.