Simultaneous Reward Distillation and Preference Learning: Get You a Language Model Who Can Do Both
作者: Abhijnan Nath, Changsoo Jung, Ethan Seefried, Nikhil Krishnaswamy
分类: cs.LG, cs.CL
发布日期: 2024-10-11 (更新: 2025-01-31)
💡 一句话要点
提出DRDO,同时进行奖励蒸馏和偏好学习,提升语言模型性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 语言模型对齐 奖励蒸馏 偏好学习 直接偏好优化 噪声鲁棒性
📋 核心要点
- 现有DPO等直接偏好优化方法在处理非确定或噪声偏好标签时,易产生退化策略。
- DRDO同时建模奖励和偏好,直接模仿奖励模型,并用新颖的似然函数学习人类偏好。
- 实验表明,DRDO在奖励期望上优于DPO等方法,且对噪声和OOD数据更鲁棒。
📝 摘要(中文)
传统的基于RLHF的LLM对齐方法显式地最大化来自独立奖励模型的期望奖励。最近的监督对齐方法,如直接偏好优化(DPO),绕过了这个阶段,以避免模型漂移和奖励过拟合等问题。尽管DPO由于其简单性而受欢迎,但这种严重依赖于基于Bradley-Terry的成对偏好公式的直接对齐方法,在面对非确定性或嘈杂的偏好标签时,仍然可能导致退化的策略,例如,人类对两个置信度较低的候选输出进行评分。本文介绍了一种名为DRDO(直接奖励蒸馏和策略优化)的方法,它同时对奖励和偏好进行建模,以避免这种退化。DRDO直接模仿oracle分配的奖励,同时通过一种新颖的偏好似然公式学习人类偏好。在Ultrafeedback和TL;DR数据集上的结果表明,DRDO训练的策略在期望奖励方面超过了DPO和e-DPO等方法,并且平均而言,对嘈杂的偏好信号以及分布外(OOD)设置更具鲁棒性。
🔬 方法详解
问题定义:现有基于RLHF的LLM对齐方法,特别是DPO等直接偏好优化方法,在面对质量不高的偏好数据(例如,人类标注不确定或存在噪声)时,容易导致策略退化,即模型无法有效区分好坏样本,导致性能下降。这是因为DPO严重依赖成对偏好比较,对噪声数据敏感。
核心思路:DRDO的核心思路是同时进行奖励蒸馏和偏好学习。一方面,它直接模仿一个预先训练好的奖励模型(oracle)的奖励值,避免了传统RLHF中奖励模型与策略模型之间的偏差。另一方面,它通过一种新的偏好似然公式来学习人类的偏好,从而更好地处理噪声数据,避免策略退化。
技术框架:DRDO的整体框架包含两个主要部分:奖励蒸馏和偏好学习。奖励蒸馏部分通过最小化策略模型输出的奖励与oracle奖励之间的差异来实现。偏好学习部分则使用一种新的偏好似然函数,该函数考虑了奖励值和偏好标签,从而更准确地建模人类偏好。这两个部分通过一个联合损失函数进行优化,使得策略模型既能模仿奖励模型的行为,又能符合人类的偏好。
关键创新:DRDO的关键创新在于同时进行奖励蒸馏和偏好学习,并提出了一种新的偏好似然函数。与DPO等方法相比,DRDO不只依赖成对偏好比较,而是直接学习奖励值,从而更好地处理噪声数据。新的偏好似然函数能够更准确地建模人类偏好,避免策略退化。
关键设计:DRDO的关键设计包括:1) 奖励蒸馏损失函数,用于最小化策略模型输出的奖励与oracle奖励之间的差异;2) 新的偏好似然函数,用于建模人类偏好,该函数考虑了奖励值和偏好标签;3) 联合损失函数,用于同时优化奖励蒸馏和偏好学习。具体的损失函数形式和参数设置需要在实际应用中进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DRDO在Ultrafeedback和TL;DR数据集上优于DPO和e-DPO等基线方法。具体来说,DRDO训练的策略在期望奖励方面取得了显著提升,并且对噪声偏好信号和分布外设置表现出更强的鲁棒性。这些结果表明,DRDO能够有效地解决DPO等方法在处理噪声数据时容易出现策略退化的问题。
🎯 应用场景
DRDO方法可应用于各种需要对齐大型语言模型的场景,例如对话系统、文本生成、代码生成等。通过同时学习奖励和偏好,DRDO可以提高模型的性能和鲁棒性,使其更好地符合人类的期望。该方法在处理噪声数据和分布外数据方面具有优势,因此在实际应用中具有很高的价值。
📄 摘要(原文)
Traditional RLHF-based LLM alignment methods explicitly maximize the expected rewards from a separate reward model. More recent supervised alignment methods like Direct Preference Optimization (DPO) circumvent this phase to avoid problems including model drift and reward overfitting. Although popular due to its simplicity, DPO and similar direct alignment methods which rely heavily on the Bradley-Terry-based pairwise preference formulation can still lead to degenerate policies when challenged by non-deterministic or noisy preference labels, for example human scoring of two candidate outputs with low confidence. This paper introduces DRDO (Direct Reward Distillation and policy-Optimization), which simultaneously models rewards and preferences to avoid such degeneracy. DRDO directly mimics rewards assigned by an oracle while learning human preferences with a novel preference likelihood formulation. Results on the Ultrafeedback and TL;DR datasets demonstrate that DRDO-trained policies surpass methods such as DPO and e-DPO in terms of expected rewards and are more robust, on average, to noisy preference signals as well as out-of-distribution (OOD) settings.