Self-Improvement Towards Pareto Optimality: Mitigating Preference Conflicts in Multi-Objective Alignment
作者: Moxin Li, Yuantao Zhang, Wenjie Wang, Wentao Shi, Zhuo Liu, Fuli Feng, Tat-Seng Chua
分类: cs.LG, cs.CL
发布日期: 2025-02-20 (更新: 2025-12-08)
备注: ACL findings (2025)
🔗 代码/项目: GITHUB
💡 一句话要点
提出自提升DPO框架,通过构建Pareto最优响应缓解多目标对齐中的偏好冲突
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多目标对齐 偏好优化 直接偏好优化 Pareto最优 自监督学习
📋 核心要点
- 现有基于DPO的多目标对齐方法面临偏好冲突问题,不同目标倾向于不同的响应,导致优化方向冲突。
- 论文提出自提升DPO框架,通过让LLM自生成和选择Pareto最优响应,以解决偏好冲突并进行自监督偏好对齐。
- 实验结果表明,该框架在两个数据集上均优于现有基线方法,实现了更好的Pareto前沿。
📝 摘要(中文)
多目标对齐(MOA)旨在使大型语言模型(LLM)的响应与多个人类偏好目标对齐,直接偏好优化(DPO)已成为一种重要方法。然而,我们发现基于DPO的MOA方法存在广泛的偏好冲突,即不同的目标偏好不同的响应。这导致了冲突的优化方向,阻碍了Pareto前沿的优化。为了解决这个问题,我们提出构建Pareto最优响应来解决偏好冲突。为了有效获取和利用这些响应,我们提出了一个自提升DPO框架,使LLM能够自生成和选择Pareto最优响应,以进行自监督偏好对齐。在两个数据集上的大量实验表明,与各种基线相比,我们的框架实现了卓越的Pareto前沿。
🔬 方法详解
问题定义:多目标对齐旨在使LLM的输出同时满足多个不同的偏好目标。然而,现有的基于DPO的方法在多目标场景下,由于数据中存在偏好冲突,导致模型难以优化到Pareto最优前沿。具体来说,不同的目标可能对同一个输入产生不同的偏好,使得优化方向相互冲突,模型难以收敛。
核心思路:论文的核心思路是通过构建Pareto最优的响应来解决偏好冲突。Pareto最优是指在所有目标上都无法同时改进的解。通过让模型学习生成和选择Pareto最优的响应,可以有效地缓解偏好冲突,从而更好地优化多目标对齐。
技术框架:该论文提出了一个自提升DPO框架(Self-Improving DPO, SIPO)。该框架包含两个主要阶段:1) 自生成阶段:LLM基于给定的输入,生成多个候选响应。2) 自选择阶段:LLM对生成的候选响应进行评估,选择Pareto最优的响应。选择出的Pareto最优响应被用于自监督的DPO训练,从而提升模型的多目标对齐能力。
关键创新:该论文的关键创新在于提出了利用LLM自身的能力来生成和选择Pareto最优响应,从而实现自监督的偏好对齐。这种方法避免了对额外的人工标注数据的依赖,并且可以有效地缓解偏好冲突,从而提升多目标对齐的性能。与现有方法相比,SIPO能够更好地探索Pareto前沿。
关键设计:在自生成阶段,可以使用不同的采样策略来生成多样化的候选响应。在自选择阶段,需要定义一个合适的Pareto最优性评估指标。论文中使用了基于目标偏好得分的Pareto最优性判断方法。DPO训练使用标准的DPO损失函数,目标是最大化Pareto最优响应的偏好概率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SIPO框架在两个数据集上均取得了显著的性能提升。与基线方法相比,SIPO能够更好地探索Pareto前沿,在多个目标上都取得了更好的性能。例如,在某个数据集上,SIPO在所有目标上的平均得分都比最佳基线提高了5%以上。
🎯 应用场景
该研究成果可应用于各种需要多目标对齐的场景,例如对话系统、文本摘要、机器翻译等。通过优化LLM在多个目标上的表现,可以生成更符合用户需求、更全面、更可靠的输出。该方法在人机交互、智能助手等领域具有重要的应用价值和潜力。
📄 摘要(原文)
Multi-Objective Alignment (MOA) aims to align LLMs' responses with multiple human preference objectives, with Direct Preference Optimization (DPO) emerging as a prominent approach. However, we find that DPO-based MOA approaches suffer from widespread preference conflicts in the data, where different objectives favor different responses. This results in conflicting optimization directions, hindering the optimization on the Pareto Front. To address this, we propose to construct Pareto-optimal responses to resolve preference conflicts. To efficiently obtain and utilize such responses, we propose a self-improving DPO framework that enables LLMs to self-generate and select Pareto-optimal responses for self-supervised preference alignment. Extensive experiments on two datasets demonstrate the superior Pareto Front achieved by our framework compared to various baselines. Code is available at https://github.com/zyttt-coder/SIPO.