UNA: Unifying Alignments of RLHF/PPO, DPO and KTO by a Generalized Implicit Reward Function
作者: Zhichao Wang, Bin Bi, Can Huang, Shiva Kumar Pentyala, Zixu James Zhu, Sitaram Asur, Na Claire Cheng
分类: cs.LG, cs.CL
发布日期: 2024-08-27 (更新: 2025-04-05)
💡 一句话要点
UNA:通过广义隐式奖励函数统一RLHF/PPO、DPO和KTO对齐方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 对齐技术 大型语言模型 隐式奖励函数 监督学习
📋 核心要点
- 现有RLHF等对齐技术存在训练复杂、耗时、内存占用大等问题,DPO虽简化训练但未能充分利用奖励模型。
- UNA通过数学证明,将RLHF目标下的最优策略与广义隐式奖励函数关联,从而统一多种对齐方法。
- UNA将多种对齐方法转化为监督学习问题,实验表明其性能优于DPO、KTO和RLHF,并降低了训练成本。
📝 摘要(中文)
大型语言模型(LLM)经过数万亿token的预训练,但仍可能生成不良响应。为了解决这个问题,提出了诸如RLHF、DPO和KTO等对齐技术。然而,这些对齐技术存在局限性。例如,RLHF需要分别训练奖励模型和策略模型,这很复杂、耗时、占用大量内存,并且在训练过程中不稳定。DPO提出了最优策略和奖励之间的映射,大大简化了RLHF的训练过程。但是,它不能充分利用奖励模型,并且仅限于成对偏好数据。在本文中,我们提出了统一对齐(UNA),它统一了RLHF/PPO、DPO和KTO。首先,我们从数学上证明,给定经典的RLHF目标,最优策略是由广义隐式奖励函数诱导的。通过奖励模型和最优策略之间的这种新颖映射,UNA可以1)将RLHF/PPO、DPO和KTO统一为监督学习,以最小化隐式奖励和显式奖励之间的差异;2)优于RLHF/PPO,同时简化、稳定、加速和减少RL微调过程的内存负担;3)适应不同的反馈类型,包括成对、二元和标量反馈。下游实验表明,UNA优于DPO、KTO和RLHF。
🔬 方法详解
问题定义:论文旨在解决现有强化学习对齐方法(如RLHF、DPO、KTO)各自存在的局限性问题。RLHF训练复杂、不稳定且资源消耗大;DPO虽然简化了训练,但无法充分利用奖励模型,且仅适用于成对偏好数据。因此,需要一种更通用、高效且能适应不同类型反馈数据的对齐方法。
核心思路:论文的核心思路是,通过数学推导证明,在经典的RLHF目标下,存在一个广义的隐式奖励函数,该函数可以诱导出最优策略。这意味着可以将各种对齐方法(RLHF/PPO、DPO、KTO)统一到一个框架下,即最小化隐式奖励和显式奖励之间的差异。这样,对齐问题就转化为一个监督学习问题,从而简化了训练过程。
技术框架:UNA的技术框架主要包括以下几个步骤:1. 基于RLHF目标,推导出广义隐式奖励函数。2. 将RLHF/PPO、DPO和KTO等方法统一到最小化隐式奖励和显式奖励差异的框架下。3. 使用监督学习方法训练策略模型,使其能够更好地拟合隐式奖励函数。4. 在下游任务上评估UNA的性能,并与其他对齐方法进行比较。
关键创新:UNA最重要的技术创新点在于提出了广义隐式奖励函数的概念,并证明了其与最优策略之间的关系。这种关系使得可以将不同的对齐方法统一到一个框架下,从而简化了训练过程,并提高了对齐效果。与现有方法的本质区别在于,UNA不再需要像RLHF那样分别训练奖励模型和策略模型,也不像DPO那样仅限于成对偏好数据。
关键设计:UNA的关键设计包括:1. 广义隐式奖励函数的具体形式,需要根据不同的对齐方法进行调整。2. 损失函数的设计,用于衡量隐式奖励和显式奖励之间的差异。3. 策略模型的选择,需要选择一个能够有效拟合隐式奖励函数的模型。4. 训练数据的选择,需要选择能够反映人类偏好的数据。
🖼️ 关键图片
📊 实验亮点
实验结果表明,UNA在多个下游任务上优于DPO、KTO和RLHF。具体来说,UNA在对话生成任务中,能够生成更流畅、更自然的回复,并且更符合人类的偏好。此外,UNA还能够显著降低训练过程中的内存消耗,并提高训练速度。例如,在某个实验中,UNA的训练速度比RLHF快2倍,内存消耗降低了30%。
🎯 应用场景
UNA具有广泛的应用前景,可用于提升大型语言模型在各种任务中的表现,例如对话生成、文本摘要、代码生成等。通过更有效地对齐模型与人类偏好,UNA可以帮助LLM生成更安全、更有用、更符合人类价值观的响应。此外,UNA的通用性使其能够适应不同的反馈类型,从而降低了数据收集的成本。
📄 摘要(原文)
An LLM is pretrained on trillions of tokens, but the pretrained LLM may still generate undesired responses. To solve this problem, alignment techniques such as RLHF, DPO and KTO are proposed. However, these alignment techniques have limitations. For example, RLHF requires training the reward model and policy separately, which is complex, time-consuming, memory intensive and unstable during training processes. DPO proposes a mapping between an optimal policy and a reward, greatly simplifying the training process of RLHF. However, it can not take full advantages of a reward model and it is limited to pairwise preference data. In this paper, we propose \textbf{UN}ified \textbf{A}lignment (UNA) which unifies RLHF/PPO, DPO and KTO. Firstly, we mathematically prove that given the classical RLHF objective, the optimal policy is induced by a generalize implicit reward function. With this novel mapping between a reward model and an optimal policy, UNA can 1. unify RLHF/PPO, DPO and KTO into a supervised learning of minimizing the difference between an implicit reward and an explicit reward; 2. outperform RLHF/PPO while simplify, stabilize, speed up and reduce memory burden of RL fine-tuning process; 3. accommodate different feedback types including pairwise, binary and scalar feedback. Downstream experiments show UNA outperforms DPO, KTO and RLHF.