Policy-labeled Preference Learning: Is Preference Enough for RLHF?

📄 arXiv: 2505.06273v2 📥 PDF

作者: Taehyun Cho, Seokhun Ju, Seungyub Han, Dohyeong Kim, Kyungjae Lee, Jungwoo Lee

分类: cs.LG, cs.AI

发布日期: 2025-05-06 (更新: 2025-05-13)


💡 一句话要点

提出策略标记偏好学习(PPL),通过后悔建模解决RLHF中的似然不匹配问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 人类反馈 偏好学习 后悔建模 策略优化

📋 核心要点

  1. 现有RLHF方法常假设轨迹由最优策略生成,导致似然估计不准确,影响策略学习。
  2. PPL通过后悔建模人类偏好,利用行为策略信息解决似然不匹配问题,无需显式奖励。
  3. 实验表明,PPL在离线和在线RLHF设置中均显著提升了性能,尤其是在高维连续控制任务中。

📝 摘要(中文)

为了设计与人类目标对齐的奖励,从人类反馈中强化学习(RLHF)已经成为一种重要的技术,用于从人类偏好中学习奖励函数,并通过强化学习算法优化策略。然而,现有的RLHF方法通常错误地将轨迹解释为由最优策略生成的,导致不准确的似然估计和次优学习。受到直接偏好优化框架的启发,该框架直接学习最优策略而无需显式奖励,我们提出了策略标记偏好学习(PPL),通过用后悔建模人类偏好来解决似然不匹配问题,后悔反映了行为策略信息。我们还提供了一种对比KL正则化,它源于基于后悔的原则,以增强序列决策中的RLHF。在高维连续控制任务中的实验表明,PPL在离线RLHF性能方面有显著改进,并且在在线设置中有效。

🔬 方法详解

问题定义:现有的RLHF方法在学习奖励函数时,通常假设人类提供的偏好数据(轨迹)是由一个最优策略产生的。然而,实际情况是,人类的反馈可能受到各种因素的影响,例如探索不足、认知偏差等,导致轨迹并非最优。这种假设导致似然估计偏差,最终影响学习到的策略的性能。因此,核心问题是如何在RLHF中更准确地建模人类偏好,避免将次优轨迹误认为最优轨迹。

核心思路:PPL的核心思路是引入“后悔”的概念来建模人类偏好。后悔指的是当前策略与最优策略之间的差距。通过将后悔纳入偏好模型,PPL能够区分由不同策略产生的轨迹,从而更准确地估计似然。这种方法不再假设所有轨迹都来自最优策略,而是考虑了行为策略的影响,从而缓解了似然不匹配问题。

技术框架:PPL的整体框架包括以下几个主要步骤:1) 收集人类偏好数据,包括轨迹和对应的偏好标签;2) 使用后悔建模人类偏好,构建偏好模型;3) 利用偏好模型学习奖励函数或直接优化策略;4) 使用强化学习算法(如PPO)优化策略。此外,PPL还引入了一种对比KL正则化项,以鼓励策略探索,并防止策略过于偏离行为策略。

关键创新:PPL最关键的创新在于使用后悔来建模人类偏好。与传统的RLHF方法不同,PPL不再假设所有轨迹都来自最优策略,而是考虑了行为策略的影响。这种方法能够更准确地估计似然,从而提高学习到的策略的性能。此外,对比KL正则化也是一个重要的创新,它能够鼓励策略探索,并防止策略过于偏离行为策略。

关键设计:PPL的关键设计包括:1) 后悔的定义和计算方法;2) 偏好模型的具体形式(例如,可以使用神经网络来建模偏好);3) 对比KL正则化项的系数;4) 强化学习算法的选择和参数设置。具体来说,后悔可以定义为当前策略与最优策略之间的累积奖励差。偏好模型可以使用神经网络来建模,输入为轨迹,输出为偏好概率。对比KL正则化项的系数需要根据具体任务进行调整。强化学习算法可以选择PPO等常用的算法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PPL在离线RLHF设置中显著优于现有的RLHF方法,例如在多个高维连续控制任务中,PPL的性能提升了10%-20%。此外,PPL在在线RLHF设置中也表现出良好的性能,能够快速适应人类反馈,并学习到高质量的策略。这些结果表明,PPL是一种有效的RLHF方法,能够更准确地建模人类偏好,并提高学习到的策略的性能。

🎯 应用场景

PPL具有广泛的应用前景,可应用于机器人控制、游戏AI、自动驾驶等领域。通过更准确地建模人类偏好,PPL能够使AI系统更好地理解人类意图,从而实现更安全、更高效的人机协作。此外,PPL还可以用于个性化推荐、内容生成等领域,为用户提供更符合其偏好的服务。

📄 摘要(原文)

To design rewards that align with human goals, Reinforcement Learning from Human Feedback (RLHF) has emerged as a prominent technique for learning reward functions from human preferences and optimizing policies via reinforcement learning algorithms. However, existing RLHF methods often misinterpret trajectories as being generated by an optimal policy, causing inaccurate likelihood estimation and suboptimal learning. Inspired by Direct Preference Optimization framework which directly learns optimal policy without explicit reward, we propose policy-labeled preference learning (PPL), to resolve likelihood mismatch issues by modeling human preferences with regret, which reflects behavior policy information. We also provide a contrastive KL regularization, derived from regret-based principles, to enhance RLHF in sequential decision making. Experiments in high-dimensional continuous control tasks demonstrate PPL's significant improvements in offline RLHF performance and its effectiveness in online settings.