$ϕ$-DPO: Fairness Direct Preference Optimization Approach to Continual Learning in Large Multimodal Models
作者: Thanh-Dat Truong, Huu-Thien Tran, Jackson Cothren, Bhiksha Raj, Khoa Luu
分类: cs.LG, cs.CV
发布日期: 2026-02-28
💡 一句话要点
提出$ϕ$-DPO框架以解决大规模多模态模型中的公平性问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 公平性优化 持续学习 多模态模型 直接偏好优化 数据不平衡 机器学习 模型更新 成对偏好
📋 核心要点
- 现有的持续学习方法在处理不平衡数据时,容易导致模型更新偏差和性能下降,公平性问题亟待解决。
- 本文提出的$ϕ$-DPO框架通过直接偏好优化来减轻灾难性遗忘,并引入新的损失函数以应对数据分布不平衡。
- 实验结果显示,$ϕ$-DPO在多个基准测试中表现优异,超越了以往的持续学习方法,达到了最先进的性能。
📝 摘要(中文)
在大规模多模态模型的持续学习中,公平性是一个新兴但尚未充分探索的挑战,尤其是在数据分布不平衡的情况下,可能导致模型更新偏差和任务性能不佳。本文提出了一种新颖的公平性直接偏好优化框架(FaiDPO或$ϕ$-DPO),旨在通过对齐成对偏好信号来减轻灾难性遗忘。我们识别了传统DPO在不平衡数据中的局限性,并提出了一种新的$ϕ$-DPO损失,明确解决分布偏差。通过理论分析,我们证明了该方法同时解决了遗忘和数据不平衡的问题。此外,我们为现有基准构建了成对偏好注释,以支持$ϕ$-DPO的持续学习。大量实验和消融研究表明,$ϕ$-DPO在多个基准上实现了最先进的性能,超越了之前的持续学习方法。
🔬 方法详解
问题定义:本文旨在解决大规模多模态模型在持续学习中面临的公平性问题,尤其是在数据分布不平衡的情况下,现有方法往往无法有效应对模型更新的偏差和性能下降。
核心思路:论文提出了一种新的持续学习范式,基于直接偏好优化(DPO)来减轻灾难性遗忘,通过对齐成对偏好信号来优化学习过程。同时,针对传统DPO在不平衡数据中的局限性,设计了新的$ϕ$-DPO损失函数,以明确解决分布偏差问题。
技术框架:整体框架包括数据预处理、成对偏好注释生成、$ϕ$-DPO损失计算和模型训练四个主要模块。首先,对数据进行预处理以生成成对偏好,然后利用$ϕ$-DPO损失进行模型训练,确保模型在学习新任务时不会遗忘旧任务。
关键创新:本文的关键创新在于引入$ϕ$-DPO损失,该损失函数专门设计用于处理不平衡数据分布,显著提升了模型的公平性和性能。这一设计与传统DPO方法的本质区别在于其对数据分布的敏感性和适应性。
关键设计:在损失函数的设计上,$ϕ$-DPO损失考虑了数据分布的偏差,并通过成对偏好信号来优化模型更新。此外,实验中采用了多种基准数据集进行验证,以确保方法的有效性和普适性。
🖼️ 关键图片
📊 实验亮点
$ϕ$-DPO在多个基准测试中实现了最先进的性能,相较于传统持续学习方法,性能提升幅度达到XX%(具体数据待补充),有效解决了数据不平衡带来的公平性问题。
🎯 应用场景
该研究的潜在应用领域包括公平性要求较高的机器学习任务,如医疗诊断、金融决策和社交媒体内容推荐等。通过提升模型在不平衡数据下的公平性,$ϕ$-DPO框架能够在实际应用中减少偏见,提高决策的公正性和透明度,未来可能对相关领域产生深远影响。
📄 摘要(原文)
Fairness in Continual Learning for Large Multimodal Models (LMMs) is an emerging yet underexplored challenge, particularly in the presence of imbalanced data distributions that can lead to biased model updates and suboptimal performance across tasks. While recent continual learning studies have made progress in addressing catastrophic forgetting, the problem of fairness caused the imbalanced data remains largely underexplored. This paper presents a novel Fairness Direct Preference Optimization (FaiDPO or $\phi$-DPO) framework for continual learning in LMMs. In particular, we first propose a new continual learning paradigm based on Direct Preference Optimization (DPO) to mitigate catastrophic forgetting by aligning learning with pairwise preference signals. Then, we identify the limitations of conventional DPO in imbalanced data and present a new $\phi$-DPO loss that explicitly addresses distributional biases. We provide a comprehensive theoretical analysis demonstrating that our approach addresses both forgetting and data imbalance. Additionally, to enable $\phi$-DPO-based continual learning, we construct pairwise preference annotations for existing benchmarks in the context of continual learning. Extensive experiments and ablation studies show the proposed $\phi$-DPO achieves State-of-the-Art performance across multiple benchmarks, outperforming prior continual learning methods of LMMs.