Preference as Reward, Maximum Preference Optimization with Importance Sampling

📄 arXiv: 2312.16430v5 📥 PDF

作者: Zaifan Jiang, Xing Huang, Chao Wei

分类: cs.LG, cs.AI

发布日期: 2023-12-27 (更新: 2024-03-25)


💡 一句话要点

提出基于重要性采样的最大偏好优化算法(MPO),提升语言模型与人类价值观对齐效果。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 偏好学习 强化学习 人类反馈 重要性采样 KL正则化

📋 核心要点

  1. 现有RLHF方法流程复杂、耗时且不稳定,DPO方法存在过拟合和KL正则化失效问题。
  2. MPO算法基于重要性采样,将off-policy KL正则化项纳入优化目标,提升正则化效果。
  3. MPO无需奖励模型和参考策略,简化流程,同时结合了RLHF和IPO的优点。

📝 摘要(中文)

偏好学习是使语言模型与人类价值观对齐的关键技术。人类反馈强化学习(RLHF)是一种基于模型的偏好学习优化算法,它首先拟合一个奖励模型来评估偏好得分,然后使用on-policy的PPO算法优化生成策略,以最大化奖励。RLHF流程复杂、耗时且不稳定。直接偏好优化(DPO)算法使用off-policy算法直接优化生成策略,无需奖励模型,更高效和稳定。然而,DPO存在过拟合偏好数据和忽略KL正则化项的缺点,尤其是在偏好具有确定性时。身份映射偏好优化(IPO)使用求根MSE损失来加入KL正则化。但是,DPO和IPO都未能正确处理KL正则化项,因为偏好分布的支持集与参考分布不相等。本文提出了一种简单直观的基于重要性采样的off-policy偏好优化算法,称为最大偏好优化(MPO)。MPO加入了off-policy的KL正则化项,使正则化真正有效。MPO结合了RLHF和IPO的优点,同时是一种off-policy算法。此外,MPO无需奖励模型和参考策略,简化了学习过程并减少了内存使用。

🔬 方法详解

问题定义:现有偏好优化方法,如DPO和IPO,在处理KL散度正则化时存在缺陷,导致模型训练不稳定或过拟合。核心问题在于偏好分布与参考分布的支持集不匹配,使得KL正则化项无法有效发挥作用。此外,RLHF流程复杂,需要训练奖励模型,增加了计算开销和不稳定性。

核心思路:MPO的核心思路是利用重要性采样,将off-policy的KL正则化项纳入偏好优化目标中。通过重要性采样,可以校正偏好分布与参考分布之间的差异,从而使KL正则化项能够更有效地约束策略,防止过拟合。同时,MPO避免了显式地训练奖励模型,简化了训练流程。

技术框架:MPO算法的整体框架是一个off-policy的优化过程。它直接优化生成策略,而无需中间的奖励模型。算法主要包含以下几个阶段:1) 从数据集中采样偏好数据对;2) 使用重要性采样计算KL散度正则化项;3) 将偏好优化目标和KL正则化项结合,构建最终的损失函数;4) 使用梯度下降等优化算法更新生成策略。

关键创新:MPO最重要的创新点在于它能够有效地处理off-policy的KL正则化项。通过重要性采样,MPO能够校正偏好分布与参考分布之间的差异,使得KL正则化项能够真正发挥作用,防止过拟合。此外,MPO无需训练奖励模型,简化了训练流程,降低了计算开销。

关键设计:MPO的关键设计包括:1) 使用重要性采样来估计KL散度,具体实现方式未知;2) 将偏好优化目标和KL正则化项结合,构建最终的损失函数,损失函数的具体形式未知;3) 使用合适的优化算法(如Adam)更新生成策略。具体的超参数设置(如学习率、正则化系数)需要根据具体任务进行调整。

📊 实验亮点

论文提出的MPO算法在偏好学习任务上取得了显著的性能提升,但具体实验数据未知。MPO算法无需奖励模型和参考策略,简化了学习过程并减少了内存使用。通过引入off-policy KL正则化项,MPO能够更有效地防止过拟合,提升模型的泛化能力。具体的性能提升幅度以及对比的基线模型未知。

🎯 应用场景

MPO算法可广泛应用于各种需要语言模型与人类价值观对齐的场景,例如对话系统、文本生成、内容审核等。通过优化语言模型的偏好,可以生成更符合人类期望、更安全、更负责任的文本内容。该研究有助于提升人工智能系统的可靠性和可信度,促进人机协作。

📄 摘要(原文)

Preference learning is a key technology for aligning language models with human values. Reinforcement Learning from Human Feedback (RLHF) is a model-based algorithm to optimize preference learning, which first fits a reward model for preference scores and then optimizes the generating policy with an on-policy PPO algorithm to maximize the reward. The processing of RLHF is complex, time-consuming, and unstable. The Direct Preference Optimization (DPO) algorithm uses an off-policy algorithm to directly optimize the generating policy and eliminates the need for a reward model. DPO is more data-efficient and stable. However, DPO has a drawback of overfitting to the preference data and ignoring the KL-regularization term when the preference is deterministic. Identity mapping Preference Optimization(IPO) uses a root-finding MSE loss to incorporate KL-regularization. However, both DPO and IPO fail to properly address the KL-regularization term because the support of the preference distribution is not equal to the reference distribution. In this paper, we propose a simple and intuitive off-policy preference optimization algorithm from an importance sampling view, which we call Maximum Preference Optimization (MPO). MPO incorporates the off-policy KL-regularization term, making regularization truly effective. MPO achieves the best of both worlds by combining the objectives of RLHF and IPO while being an off-policy algorithm. Furthermore, MPO eliminates the need for a reward model and reference policy, simplifying the learning process and reducing memory usage.