Preference as Reward, Maximum Preference Optimization with Importance Sampling

作者: Zaifan Jiang, Xing Huang, Chao Wei

分类: cs.LG, cs.AI

发布日期: 2023-12-27 (更新: 2024-03-25)

💡 一句话要点

提出基于重要性采样的最大偏好优化算法(MPO)，提升语言模型与人类价值观对齐效果。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 偏好学习 强化学习 人类反馈 重要性采样 KL正则化

📋 核心要点

现有RLHF方法流程复杂、耗时且不稳定，DPO方法存在过拟合和KL正则化失效问题。
MPO算法基于重要性采样，将off-policy KL正则化项纳入优化目标，提升正则化效果。
MPO无需奖励模型和参考策略，简化流程，同时结合了RLHF和IPO的优点。

📝 摘要（中文）

偏好学习是使语言模型与人类价值观对齐的关键技术。人类反馈强化学习(RLHF)是一种基于模型的偏好学习优化算法，它首先拟合一个奖励模型来评估偏好得分，然后使用on-policy的PPO算法优化生成策略，以最大化奖励。RLHF流程复杂、耗时且不稳定。直接偏好优化(DPO)算法使用off-policy算法直接优化生成策略，无需奖励模型，更高效和稳定。然而，DPO存在过拟合偏好数据和忽略KL正则化项的缺点，尤其是在偏好具有确定性时。身份映射偏好优化(IPO)使用求根MSE损失来加入KL正则化。但是，DPO和IPO都未能正确处理KL正则化项，因为偏好分布的支持集与参考分布不相等。本文提出了一种简单直观的基于重要性采样的off-policy偏好优化算法，称为最大偏好优化(MPO)。MPO加入了off-policy的KL正则化项，使正则化真正有效。MPO结合了RLHF和IPO的优点，同时是一种off-policy算法。此外，MPO无需奖励模型和参考策略，简化了学习过程并减少了内存使用。

🔬 方法详解

问题定义：现有偏好优化方法，如DPO和IPO，在处理KL散度正则化时存在缺陷，导致模型训练不稳定或过拟合。核心问题在于偏好分布与参考分布的支持集不匹配，使得KL正则化项无法有效发挥作用。此外，RLHF流程复杂，需要训练奖励模型，增加了计算开销和不稳定性。

核心思路：MPO的核心思路是利用重要性采样，将off-policy的KL正则化项纳入偏好优化目标中。通过重要性采样，可以校正偏好分布与参考分布之间的差异，从而使KL正则化项能够更有效地约束策略，防止过拟合。同时，MPO避免了显式地训练奖励模型，简化了训练流程。

技术框架：MPO算法的整体框架是一个off-policy的优化过程。它直接优化生成策略，而无需中间的奖励模型。算法主要包含以下几个阶段：1) 从数据集中采样偏好数据对；2) 使用重要性采样计算KL散度正则化项；3) 将偏好优化目标和KL正则化项结合，构建最终的损失函数；4) 使用梯度下降等优化算法更新生成策略。

关键创新：MPO最重要的创新点在于它能够有效地处理off-policy的KL正则化项。通过重要性采样，MPO能够校正偏好分布与参考分布之间的差异，使得KL正则化项能够真正发挥作用，防止过拟合。此外，MPO无需训练奖励模型，简化了训练流程，降低了计算开销。

关键设计：MPO的关键设计包括：1) 使用重要性采样来估计KL散度，具体实现方式未知；2) 将偏好优化目标和KL正则化项结合，构建最终的损失函数，损失函数的具体形式未知；3) 使用合适的优化算法（如Adam）更新生成策略。具体的超参数设置（如学习率、正则化系数）需要根据具体任务进行调整。

📊 实验亮点

论文提出的MPO算法在偏好学习任务上取得了显著的性能提升，但具体实验数据未知。MPO算法无需奖励模型和参考策略，简化了学习过程并减少了内存使用。通过引入off-policy KL正则化项，MPO能够更有效地防止过拟合，提升模型的泛化能力。具体的性能提升幅度以及对比的基线模型未知。

🎯 应用场景

MPO算法可广泛应用于各种需要语言模型与人类价值观对齐的场景，例如对话系统、文本生成、内容审核等。通过优化语言模型的偏好，可以生成更符合人类期望、更安全、更负责任的文本内容。该研究有助于提升人工智能系统的可靠性和可信度，促进人机协作。

📄 摘要（原文）

Preference learning is a key technology for aligning language models with human values. Reinforcement Learning from Human Feedback (RLHF) is a model-based algorithm to optimize preference learning, which first fits a reward model for preference scores and then optimizes the generating policy with an on-policy PPO algorithm to maximize the reward. The processing of RLHF is complex, time-consuming, and unstable. The Direct Preference Optimization (DPO) algorithm uses an off-policy algorithm to directly optimize the generating policy and eliminates the need for a reward model. DPO is more data-efficient and stable. However, DPO has a drawback of overfitting to the preference data and ignoring the KL-regularization term when the preference is deterministic. Identity mapping Preference Optimization(IPO) uses a root-finding MSE loss to incorporate KL-regularization. However, both DPO and IPO fail to properly address the KL-regularization term because the support of the preference distribution is not equal to the reference distribution. In this paper, we propose a simple and intuitive off-policy preference optimization algorithm from an importance sampling view, which we call Maximum Preference Optimization (MPO). MPO incorporates the off-policy KL-regularization term, making regularization truly effective. MPO achieves the best of both worlds by combining the objectives of RLHF and IPO while being an off-policy algorithm. Furthermore, MPO eliminates the need for a reward model and reference policy, simplifying the learning process and reducing memory usage.

Preference as Reward, Maximum Preference Optimization with Importance Sampling

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册