Bootstrapping Language Models with DPO Implicit Rewards
作者: Changyu Chen, Zichen Liu, Chao Du, Tianyu Pang, Qian Liu, Arunesh Sinha, Pradeep Varakantham, Min Lin
分类: cs.CL, cs.LG
发布日期: 2024-06-14 (更新: 2025-03-07)
备注: Accepted in ICLR 2025
🔗 代码/项目: GITHUB
💡 一句话要点
DICE:利用DPO隐式奖励自举语言模型,提升对齐效果。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语言模型对齐 直接偏好优化 隐式奖励 自举学习 长度正则化 经验回放 人类反馈强化学习
📋 核心要点
- 现有RLHF方法流程复杂,DPO简化了流程,但仍有提升空间,尤其是在无需外部反馈的情况下。
- DICE方法利用DPO训练后的隐式奖励模型,通过自举方式迭代优化,提升模型对齐效果。
- DICE引入长度正则化奖励塑造和经验回放,优化偏好数据集,实验表明AlpacaEval 2胜率提升显著。
📝 摘要(中文)
大型语言模型(LLM)中的人类对齐是一个活跃的研究领域。直接偏好优化(DPO)是一项突破性的工作,它通过绕过RLHF中的奖励学习阶段,极大地简化了从人类反馈中进行强化学习(RLHF)的过程。DPO在训练后提供了一个隐式奖励模型。本文提出了一种新颖的观察,即这个隐式奖励模型本身可以以自举的方式用于进一步对齐LLM。我们的方法是使用当前LLM的奖励来构建偏好数据集,然后将其用于后续的DPO轮次。我们结合了两个改进来进一步提升我们的方法:1) 长度正则化的奖励塑造,以使偏好数据集的长度无偏差;2) 经验回放,以增强偏好数据集的质量。我们的方法,名为DICE(self-alignment with DPO ImpliCit rEwards),在对齐方面显示出巨大的改进。对于我们尝试的所有不同基础模型,它在AlpacaEval 2上的长度控制胜率提高了8$\%$以上,而无需依赖外部反馈。
🔬 方法详解
问题定义:现有基于人类反馈的语言模型对齐方法,如RLHF,流程复杂,需要显式地学习奖励模型。DPO虽然简化了流程,但其隐式奖励模型的潜力尚未充分挖掘,尤其是在缺乏外部反馈的情况下,如何进一步提升模型的对齐效果是一个挑战。
核心思路:本文的核心思路是利用DPO训练得到的隐式奖励模型,通过自举(bootstrapping)的方式迭代优化语言模型。具体来说,就是使用当前语言模型的隐式奖励来生成偏好数据集,然后用该数据集进行下一轮的DPO训练。这种方法无需额外的人工标注数据,可以实现模型的自我对齐。
技术框架:DICE的整体框架包含以下几个主要阶段: 1. 初始DPO训练:使用初始的偏好数据集训练一个DPO模型,得到一个初步对齐的语言模型和对应的隐式奖励模型。 2. 偏好数据集生成:使用当前语言模型生成多个候选回复,并使用其隐式奖励模型对这些回复进行打分,构建新的偏好数据集。为了消除长度偏差,采用长度正则化的奖励塑造方法。 3. DPO迭代训练:使用新生成的偏好数据集,再次进行DPO训练,更新语言模型。为了提高偏好数据集的质量,引入经验回放机制,保留历史的偏好数据。 4. 迭代优化:重复步骤2和3,进行多轮迭代,逐步提升语言模型的对齐效果。
关键创新:DICE的关键创新在于: 1. 隐式奖励自举:首次提出利用DPO的隐式奖励模型进行自举学习,无需额外的奖励模型训练或人工标注。 2. 长度正则化奖励塑造:通过对奖励进行长度正则化,消除偏好数据集中由于回复长度带来的偏差,提高训练效果。 3. 经验回放:通过保留历史的偏好数据,增加训练数据的多样性,避免模型陷入局部最优。
关键设计: 1. 长度正则化:对奖励进行长度正则化,具体方法未知,可能涉及对奖励值进行归一化或惩罚。 2. 经验回放:维护一个经验回放缓冲区,存储历史的偏好数据,并定期从中采样数据用于训练。 3. DPO损失函数:使用标准的DPO损失函数进行训练,具体形式未知,但通常涉及对chosen和rejected回复的奖励差异进行建模。
🖼️ 关键图片
📊 实验亮点
DICE在AlpacaEval 2基准测试中取得了显著的性能提升。实验结果表明,对于不同的基础模型,DICE在长度控制的胜率上提高了8%以上,而无需依赖外部反馈。这表明DICE能够有效地提升语言模型的对齐效果,并且具有良好的泛化能力。具体的基线模型和详细的实验设置未知。
🎯 应用场景
DICE方法可应用于各种需要人类对齐的大型语言模型,尤其是在缺乏高质量人工标注数据或需要持续自我改进的场景下。例如,可以用于对话系统、文本生成、代码生成等领域,提升模型的安全性、可靠性和用户满意度。该方法有望降低模型对齐的成本,并加速LLM在实际应用中的部署。
📄 摘要(原文)
Human alignment in large language models (LLMs) is an active area of research. A recent groundbreaking work, direct preference optimization (DPO), has greatly simplified the process from past work in reinforcement learning from human feedback (RLHF) by bypassing the reward learning stage in RLHF. DPO, after training, provides an implicit reward model. In this work, we make a novel observation that this implicit reward model can by itself be used in a bootstrapping fashion to further align the LLM. Our approach is to use the rewards from a current LLM to construct a preference dataset, which is then used in subsequent DPO rounds. We incorporate two refinements to further improve our approach: 1) length-regularized reward shaping to make the preference dataset length-unbiased; 2) experience replay to enhance the quality of the preference dataset. Our approach, named self-alignment with DPO ImpliCit rEwards (DICE), shows great improvements in alignment. It achieves an increase of more than 8$\%$ in lengthcontrolled win rate on AlpacaEval 2 for all the different base models that we tried, without relying on external feedback. Our code is available at https://github.com/sail-sg/dice.