DA-DPO: Cost-efficient Difficulty-aware Preference Optimization for Reducing MLLM Hallucinations

📄 arXiv: 2601.00623v1 📥 PDF

作者: Longtian Qiu, Shan Ning, Chuyu Zhang, Jiaxuan Sun, Xuming He

分类: cs.AI

发布日期: 2026-01-02

备注: Accepted by TMLR

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

DA-DPO:通过难度感知偏好优化降低多模态大语言模型的幻觉

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 直接偏好优化 幻觉抑制 难度感知学习 偏好优化

📋 核心要点

  1. 现有MLLM的DPO方法因偏好数据难度不平衡易过拟合,导致幻觉抑制效果不佳。
  2. DA-DPO通过难度估计和难度感知训练,平衡学习过程,提升模型对难例的关注。
  3. 实验表明,DA-DPO能有效提升MLLM的抗幻觉鲁棒性和泛化能力,且计算效率高。

📝 摘要(中文)

直接偏好优化(DPO)在减轻多模态大语言模型(MLLM)的幻觉方面显示出强大的潜力。然而,现有的多模态DPO方法通常由于偏好数据中的难度不平衡而遭受过拟合。我们的分析表明,MLLM倾向于过度强调容易区分的偏好对,这阻碍了细粒度的幻觉抑制并降低了整体性能。为了解决这个问题,我们提出了难度感知直接偏好优化(DA-DPO),这是一个经济高效的框架,旨在平衡学习过程。DA-DPO由两个主要组成部分组成:(1)难度估计,利用具有互补生成和对比目标的预训练视觉-语言模型,其输出通过分布感知投票策略进行整合,以产生稳健的难度分数,而无需额外的训练;(2)难度感知训练,基于估计的难度重新加权偏好对,降低简单样本的权重,同时强调较难的样本,以减轻过拟合。该框架通过优先考虑具有挑战性的示例来实现更有效的偏好优化,而无需新的数据或额外的微调阶段。大量的实验表明,DA-DPO始终如一地改进了多模态偏好优化,从而在标准基准测试中产生了更强的抗幻觉鲁棒性和更好的泛化能力,同时保持了计算效率。项目页面可在https://artanic30.github.io/project_pages/DA-DPO/上找到。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型(MLLM)在使用直接偏好优化(DPO)进行训练时,由于偏好数据集中存在难度不平衡,导致模型过拟合的问题。具体来说,模型容易过度关注容易区分的偏好对,而忽略那些更难区分但更重要的偏好对,从而影响了模型抑制幻觉的能力。

核心思路:论文的核心思路是引入难度感知机制,对偏好数据集中的样本进行难度评估,并根据难度调整样本的权重。通过降低简单样本的权重,提高困难样本的权重,使模型更加关注那些具有挑战性的样本,从而缓解过拟合问题,提高模型的泛化能力和抗幻觉能力。

技术框架:DA-DPO框架主要包含两个模块:难度估计模块和难度感知训练模块。难度估计模块利用预训练的视觉-语言模型,通过生成式和对比式目标,对偏好对的难度进行评估。然后,难度感知训练模块根据难度估计的结果,对偏好对进行重新加权,并在DPO训练过程中使用这些权重。

关键创新:DA-DPO的关键创新在于引入了难度感知的概念,并将其应用于多模态DPO训练中。与传统的DPO方法不同,DA-DPO能够根据样本的难度动态调整样本的权重,从而更加有效地利用偏好数据,提高模型的性能。此外,难度估计模块利用了预训练的视觉-语言模型,避免了额外的训练开销。

关键设计:难度估计模块使用了具有互补生成和对比目标的预训练视觉-语言模型。这些模型的输出通过分布感知投票策略进行整合,以产生稳健的难度分数。难度感知训练模块使用基于估计难度的重加权策略,具体来说,难度较低的样本权重降低,难度较高的样本权重增加。DPO损失函数根据这些权重进行调整,以实现难度感知的偏好优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DA-DPO在多个标准基准测试中均取得了显著的性能提升,尤其是在抗幻觉能力方面。与基线方法相比,DA-DPO能够更有效地抑制多模态大语言模型的幻觉,并提高模型的泛化能力。具体的数据提升幅度在论文中进行了详细的展示。

🎯 应用场景

DA-DPO可应用于各种需要降低多模态大语言模型幻觉的场景,例如医疗诊断、自动驾驶、智能客服等。通过提高模型的可靠性和准确性,DA-DPO能够提升这些应用的用户体验和安全性,并为未来的多模态人工智能发展奠定基础。

📄 摘要(原文)

Direct Preference Optimization (DPO) has shown strong potential for mitigating hallucinations in Multimodal Large Language Models (MLLMs). However, existing multimodal DPO approaches often suffer from overfitting due to the difficulty imbalance in preference data. Our analysis shows that MLLMs tend to overemphasize easily distinguishable preference pairs, which hinders fine-grained hallucination suppression and degrades overall performance. To address this issue, we propose Difficulty-Aware Direct Preference Optimization (DA-DPO), a cost-effective framework designed to balance the learning process. DA-DPO consists of two main components: (1) Difficulty Estimation leverages pre-trained vision--language models with complementary generative and contrastive objectives, whose outputs are integrated via a distribution-aware voting strategy to produce robust difficulty scores without additional training; and (2) Difficulty-Aware Training reweights preference pairs based on their estimated difficulty, down-weighting easy samples while emphasizing harder ones to alleviate overfitting. This framework enables more effective preference optimization by prioritizing challenging examples, without requiring new data or extra fine-tuning stages. Extensive experiments demonstrate that DA-DPO consistently improves multimodal preference optimization, yielding stronger robustness to hallucinations and better generalization across standard benchmarks, while remaining computationally efficient. The project page is available at https://artanic30.github.io/project_pages/DA-DPO/.