MGDA-Decoupled: Geometry-Aware Multi-Objective Optimisation for DPO-based LLM Alignment

📄 arXiv: 2604.20685v1 📥 PDF

作者: Andor Vári-Kakas, Ji Won Park, Natasa Tagasovska

分类: cs.LG

发布日期: 2026-04-22

备注: Accepted to the Algorithmic Fairness Across Alignment Procedures and Agentic Systems Workshop at ICLR 2026


💡 一句话要点

提出MGDA-Decoupled算法,用于DPO对齐中兼顾多目标优化

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多目标优化 LLM对齐 直接偏好优化 几何优化 梯度下降

📋 核心要点

  1. 现有LLM对齐方法在多目标优化中采用固定标量化,导致对部分目标优化不足。
  2. MGDA-Decoupled算法基于几何方法,在DPO框架下寻找兼顾各目标收敛性的下降方向。
  3. 实验表明,MGDA-Decoupled在UltraFeedback数据集上胜过黄金响应,提升了整体和各目标的胜率。

📝 摘要(中文)

将大型语言模型(LLM)与理想的人类价值观对齐需要平衡多个可能冲突的目标,例如有用性、真实性和无害性,这提出了一个多目标优化挑战。大多数对齐流程依赖于这些目标的固定标量化,这可能通过系统性地低估难以优化或少数目标而引入程序上的不公平。为了促进更公平的权衡,我们引入了MGDA-Decoupled,这是一种基于几何的多目标优化算法,它在显式考虑每个目标的收敛动态的同时,找到一个共享的下降方向。与依赖于强化学习(例如,GAPO)或显式奖励模型(例如,MODPO)的先前方法相比,我们的方法完全在轻量级的直接偏好优化(DPO)范例中运行。在UltraFeedback数据集上的实验表明,几何感知方法——特别是MGDA-Decoupled——实现了针对黄金响应的最高胜率,包括总体胜率和每个目标的胜率。

🔬 方法详解

问题定义:现有的大型语言模型对齐方法,在同时优化多个目标(如有用性、真实性和无害性)时,通常采用固定的标量化方法。这种方法的痛点在于,它可能对某些难以优化或者权重较低的目标造成系统性的忽略,导致最终模型在这些目标上的表现不佳,从而引入了程序上的不公平性。

核心思路:MGDA-Decoupled的核心思路是采用一种基于几何的多目标优化方法,该方法能够显式地考虑每个目标的收敛动态,并找到一个共享的下降方向,从而更公平地平衡各个目标。通过这种方式,算法能够避免对某些目标的过度牺牲,从而提升整体的对齐效果。

技术框架:MGDA-Decoupled算法在Direct Preference Optimization (DPO) 框架下运行,无需依赖强化学习或显式的奖励模型。该算法首先计算每个目标的梯度,然后利用Multiple Gradient Descent Algorithm (MGDA) 寻找一个共享的下降方向。关键在于,MGDA-Decoupled对MGDA进行了改进,使其能够更好地适应各个目标不同的收敛速度。

关键创新:MGDA-Decoupled的关键创新在于其几何感知的多目标优化方法,以及对传统MGDA算法的解耦改进。与现有方法相比,它不再依赖于固定的标量化权重,而是根据各个目标的梯度信息动态地调整优化方向,从而实现了更公平的权衡。此外,该方法直接在DPO框架下运行,避免了复杂的强化学习过程。

关键设计:MGDA-Decoupled的关键设计包括:1) 使用梯度信息来估计每个目标的收敛速度;2) 对MGDA算法进行解耦,使其能够更好地适应不同目标的收敛动态;3) 在DPO框架下,通过调整偏好损失函数来优化模型。具体的参数设置和损失函数细节需要在论文中进一步查找。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MGDA-Decoupled算法在UltraFeedback数据集上取得了显著的性能提升,胜过了黄金响应,并且在整体胜率和各个目标的胜率上均优于其他基线方法。这表明该算法能够更有效地平衡多个目标,从而提升LLM的整体对齐效果。

🎯 应用场景

该研究成果可应用于提升大型语言模型在多目标对齐方面的性能,例如在对话系统中,可以同时优化对话的有用性、安全性和信息准确性。此外,该方法还可推广到其他需要平衡多个冲突目标的机器学习任务中,例如推荐系统、自动驾驶等,具有广泛的应用前景和实际价值。

📄 摘要(原文)

Aligning large language models (LLMs) to desirable human values requires balancing multiple, potentially conflicting objectives such as helpfulness, truthfulness, and harmlessness, which presents a multi-objective optimisation challenge. Most alignment pipelines rely on a fixed scalarisation of these objectives, which can introduce procedural unfairness by systematically under-weighting harder-to-optimise or minority objectives. To promote more equitable trade-offs, we introduce MGDA-Decoupled, a geometry-based multi-objective optimisation algorithm that finds a shared descent direction while explicitly accounting for each objective's convergence dynamics. In contrast to prior methods that depend on reinforcement learning (e.g., GAPO) or explicit reward models (e.g., MODPO), our approach operates entirely within the lightweight Direct Preference Optimisation (DPO) paradigm. Experiments on the UltraFeedback dataset show that geometry-aware methods -- and MGDA-Decoupled in particular -- achieve the highest win rates against golden responses, both overall and per objective.