$φ$-DPO: Fairness Direct Preference Optimization Approach to Continual Learning in Large Multimodal Models

📄 arXiv: 2602.22601v1 📥 PDF

作者: Thanh-Dat Truong, Huu-Thien Tran, Jackson Cothren, Bhiksha Raj, Khoa Luu

分类: cs.LG, cs.CV

发布日期: 2026-02-26

备注: Accepted to CVPR'26


💡 一句话要点

提出$φ$-DPO,解决大型多模态模型持续学习中的公平性问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 持续学习 多模态学习 公平性 直接偏好优化 数据不平衡

📋 核心要点

  1. 大型多模态模型持续学习中,数据不平衡导致公平性问题日益突出,现有方法难以有效解决。
  2. 论文提出$φ$-DPO框架,通过优化成对偏好信号,显式解决数据分布偏差,缓解灾难性遗忘。
  3. 实验结果表明,$φ$-DPO在多个基准测试中超越现有持续学习方法,达到最先进水平。

📝 摘要(中文)

本文提出了一种新颖的公平性直接偏好优化(FaiDPO 或 $φ$-DPO)框架,用于大型多模态模型(LMMs)的持续学习。针对持续学习中数据不平衡导致的模型偏差和次优性能问题,该框架首先提出了一种基于直接偏好优化(DPO)的持续学习范式,通过对齐成对偏好信号来缓解灾难性遗忘。然后,针对传统DPO在不平衡数据上的局限性,提出了一种新的$φ$-DPO损失,显式地解决了分布偏差。论文提供了全面的理论分析,证明该方法能够同时解决遗忘和数据不平衡问题。此外,为了支持基于$φ$-DPO的持续学习,论文构建了现有基准测试的成对偏好标注。大量实验和消融研究表明,所提出的$φ$-DPO在多个基准测试中实现了最先进的性能,优于以往的LMMs持续学习方法。

🔬 方法详解

问题定义:论文旨在解决大型多模态模型在持续学习场景下,由于数据不平衡导致的模型公平性问题。现有持续学习方法主要关注缓解灾难性遗忘,但忽略了数据不平衡带来的偏差,导致模型在不同任务或群体上的表现差异较大。传统DPO方法在处理不平衡数据时,容易受到多数类别的支配,无法保证公平性。

核心思路:论文的核心思路是利用直接偏好优化(DPO)框架,并引入一个显式地解决分布偏差的损失函数($φ$-DPO)。通过优化成对偏好信号,模型能够学习到更公平的表示,从而在持续学习过程中保持对不同任务和群体的良好性能。这种设计旨在平衡模型在不同数据分布上的学习,避免模型过度拟合多数类别。

技术框架:该框架基于DPO,包含以下主要阶段:1) 构建成对偏好数据集,用于指导模型的学习;2) 使用$φ$-DPO损失函数训练模型,该损失函数考虑了数据分布的偏差;3) 在持续学习场景下,依次训练模型完成不同的任务。整体流程旨在通过优化偏好信号,使模型在学习新任务的同时,保持对先前任务的良好性能,并减少数据不平衡带来的偏差。

关键创新:最重要的技术创新点在于提出的$φ$-DPO损失函数,它显式地考虑了数据分布的偏差,从而能够更好地处理不平衡数据。与传统DPO方法相比,$φ$-DPO能够更有效地平衡模型在不同数据分布上的学习,从而提高模型的公平性和泛化能力。

关键设计:$φ$-DPO损失函数的具体形式未知,需要查阅论文原文才能确定。但可以推测,该损失函数可能包含一个正则化项,用于惩罚模型在少数类别上的错误预测,或者采用重采样、重加权等技术来平衡不同类别的影响。此外,成对偏好数据集的构建方式也是一个关键设计,需要保证偏好信号能够反映真实的公平性需求。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,$φ$-DPO在多个持续学习基准测试中取得了最先进的性能,显著优于现有的持续学习方法。具体的性能数据和提升幅度需要在论文原文中查找。实验还进行了消融研究,验证了$φ$-DPO损失函数和成对偏好数据集的有效性。

🎯 应用场景

该研究成果可应用于各种需要持续学习和公平性的多模态场景,例如:医疗诊断、自动驾驶、智能客服等。在这些场景中,数据往往存在不平衡现象,例如罕见疾病的病例较少,不同种族的人脸数据分布不均等。应用该方法可以提高模型在这些场景下的公平性和可靠性,避免产生歧视或误判。

📄 摘要(原文)

Fairness in Continual Learning for Large Multimodal Models (LMMs) is an emerging yet underexplored challenge, particularly in the presence of imbalanced data distributions that can lead to biased model updates and suboptimal performance across tasks. While recent continual learning studies have made progress in addressing catastrophic forgetting, the problem of fairness caused the imbalanced data remains largely underexplored. This paper presents a novel Fairness Direct Preference Optimization (FaiDPO or $φ$-DPO) framework for continual learning in LMMs. In particular, we first propose a new continual learning paradigm based on Direct Preference Optimization (DPO) to mitigate catastrophic forgetting by aligning learning with pairwise preference signals. Then, we identify the limitations of conventional DPO in imbalanced data and present a new $φ$-DPO loss that explicitly addresses distributional biases. We provide a comprehensive theoretical analysis demonstrating that our approach addresses both forgetting and data imbalance. Additionally, to enable $φ$-DPO-based continual learning, we construct pairwise preference annotations for existing benchmarks in the context of continual learning. Extensive experiments and ablation studies show the proposed $φ$-DPO achieves State-of-the-Art performance across multiple benchmarks, outperforming prior continual learning methods of LMMs.