Robust Preference Optimization through Reward Model Distillation

作者: Adam Fisch, Jacob Eisenstein, Vicky Zayats, Alekh Agarwal, Ahmad Beirami, Chirag Nagpal, Pete Shaw, Jonathan Berant

分类: cs.LG, cs.CL

发布日期: 2024-05-29 (更新: 2025-03-03)

💡 一句话要点

提出基于奖励模型蒸馏的鲁棒偏好优化方法，提升语言模型对偏好数据分布偏移的适应性。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 偏好优化 奖励模型蒸馏 语言模型对齐 鲁棒性 分布偏移

📋 核心要点

DPO方法易过拟合，导致隐式奖励值过大，生成策略退化，甚至使首选生成的概率趋近于零。
通过奖励模型蒸馏，使语言模型的隐式奖励与显式奖励模型匹配，从而获得更好的偏好分布代理。
针对奖励模型的不确定性，优化一系列奖励模型，提高模型对偏好标注分布偏移的鲁棒性。

📝 摘要（中文）

语言模型（LM）的后训练（或对齐）涉及最大化从偏好标注中导出的奖励函数。直接偏好优化（DPO）是一种流行的离线对齐方法，它直接在偏好数据上训练策略，而无需训练奖励模型或应用强化学习。然而，经验证据表明，DPO通常会分配过拟合的隐式奖励，并且趋向于无限大的幅度。这经常导致退化的策略，有时甚至导致首选生成的概率变为零。在这项工作中，我们分析了这种现象，并使用蒸馏来获得更好的生成对上的真实偏好分布的代理：我们训练LM，使其诱导的隐式奖励（即模型与参考模型的缩放对数似然比）与在偏好数据上训练的显式奖励模型相匹配。此外，为了解决我们正在蒸馏的奖励模型中的不确定性，我们针对一系列奖励模型进行优化，这些模型作为一个整体，可能至少包含一个合理的偏好分布代理。我们的结果表明，从这样的奖励模型家族中进行蒸馏可以提高对偏好标注中分布偏移的鲁棒性，同时保持DPO的简单监督性质。

🔬 方法详解

问题定义：DPO（Direct Preference Optimization）方法在语言模型对齐中表现出过拟合现象，导致模型生成的隐式奖励值过大，策略退化，甚至出现首选答案概率为零的情况。现有方法难以有效应对偏好数据分布的偏移，鲁棒性较差。

核心思路：论文的核心思路是通过奖励模型蒸馏来缓解DPO的过拟合问题。具体来说，就是训练语言模型，使其产生的隐式奖励（模型与参考模型的对数似然比）与显式训练的奖励模型相匹配。这样，语言模型就能够更好地学习到真实的偏好分布，从而提高生成质量和鲁棒性。

技术框架：该方法主要包含以下几个阶段： 1. 数据准备：收集偏好数据，即对同一问题的不同回答进行排序，标注哪个回答更符合人类偏好。 2. 奖励模型训练：使用偏好数据训练一个显式的奖励模型，该模型能够预测给定回答的奖励值。 3. 奖励模型家族构建：为了应对奖励模型的不确定性，构建一个奖励模型家族，该家族包含多个可能的奖励模型。 4. 语言模型蒸馏：使用奖励模型家族作为教师，对语言模型进行蒸馏训练，使其隐式奖励与奖励模型家族的输出相匹配。 5. 策略优化：通过优化语言模型，使其能够生成符合人类偏好的回答。

关键创新：该论文的关键创新在于使用奖励模型蒸馏来提高DPO的鲁棒性。与传统的DPO方法相比，该方法能够更好地学习到真实的偏好分布，从而缓解过拟合问题，并提高模型对偏好数据分布偏移的适应性。此外，通过构建奖励模型家族，该方法能够更好地应对奖励模型的不确定性，进一步提高模型的鲁棒性。

关键设计： 1. 隐式奖励计算：使用语言模型和参考模型的对数似然比来计算隐式奖励。 2. 奖励模型家族构建：可以使用不同的训练方法或超参数来构建奖励模型家族。 3. 蒸馏损失函数：设计合适的损失函数，使语言模型的隐式奖励与奖励模型家族的输出相匹配。例如，可以使用KL散度或均方误差等损失函数。 4. 优化算法：使用合适的优化算法来训练语言模型，例如Adam或SGD。

🖼️ 关键图片

📊 实验亮点

实验结果表明，通过奖励模型蒸馏，该方法能够显著提高语言模型对偏好标注中分布偏移的鲁棒性。具体而言，在分布偏移的情况下，该方法能够保持甚至超过传统DPO方法的性能，避免了策略退化的问题。这表明该方法能够有效地学习到真实的偏好分布，并提高模型的泛化能力。

🎯 应用场景

该研究成果可广泛应用于各种需要语言模型对齐的场景，例如对话系统、文本摘要、机器翻译等。通过提高语言模型对偏好数据分布偏移的鲁棒性，可以使模型在实际应用中更加稳定可靠，从而提升用户体验和应用价值。未来，该方法有望进一步推广到其他类型的生成模型和任务中。

📄 摘要（原文）

Language model (LM) post-training (or alignment) involves maximizing a reward function that is derived from preference annotations. Direct Preference Optimization (DPO) is a popular offline alignment method that trains a policy directly on preference data without the need to train a reward model or apply reinforcement learning. However, the empirical evidence suggests that DPO typically assigns implicit rewards that overfit, and trend towards infinite magnitude. This frequently leads to degenerate policies, sometimes causing even the probabilities of the preferred generations to go to zero. In this work, we analyze this phenomenon and use distillation to get a better proxy for the true preference distribution over generation pairs: we train the LM such that its induced implicit reward, i.e., the scaled log-likelihood ratio of the model to the reference model, matches an explicit reward model trained on the preference data. Moreover, to account for uncertainty in the reward model we are distilling from, we optimize against a family of reward models that, as a whole, is likely to include at least one reasonable proxy for the preference distribution. Our results show that distilling from such a family of reward models leads to improved robustness to distribution shift in preference annotations, while preserving the simple supervised nature of DPO.

Robust Preference Optimization through Reward Model Distillation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理