Hindsight Preference Learning for Offline Preference-based Reinforcement Learning

📄 arXiv: 2407.04451v1 📥 PDF

作者: Chen-Xiao Gao, Shengjun Fang, Chenjun Xiao, Yang Yu, Zongzhang Zhang

分类: cs.LG, cs.AI

发布日期: 2024-07-05

🔗 代码/项目: GITHUB


💡 一句话要点

提出HPL:利用后见之明偏好学习解决离线偏好强化学习中的信用分配问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 偏好学习 后见之明 信用分配 变分自编码器

📋 核心要点

  1. 现有离线偏好强化学习方法依赖即时奖励信号,忽略了人类评估序列动作时对整体结果的考量。
  2. HPL方法利用后见之明信息,即以轨迹片段的未来结果为条件的奖励,来建模人类偏好。
  3. 实验结果表明,HPL能够提供更稳健和有利的奖励,并在多个领域展现出优势。

📝 摘要(中文)

离线偏好强化学习(RL)是一种实用的RL应用途径,它侧重于使用离线数据集中轨迹片段对之间的人工偏好来优化策略。现有方法依赖于从轨迹级别的偏好标注中提取步进式的奖励信号,并假设偏好与累积的马尔可夫奖励相关。然而,这些方法未能捕捉到数据标注的整体视角:人类通常通过考虑整体结果而不是即时奖励来评估一系列动作的合意性。为了解决这个挑战,我们提出使用以轨迹片段的未来结果为条件的奖励来建模人类偏好,即后见之明信息。对于下游RL优化,每个步骤的奖励通过对可能的未来结果进行边缘化计算,其分布由使用离线数据集训练的变分自编码器近似。我们提出的方法,后见之明偏好学习(HPL),可以通过充分利用大量未标记数据集中可用的轨迹数据来促进信用分配。全面的经验研究表明了HPL在各种领域中提供稳健和有利奖励的优势。

🔬 方法详解

问题定义:离线偏好强化学习旨在利用离线数据集中轨迹片段对之间的人工偏好来学习最优策略。现有方法的主要痛点在于,它们通常假设人类的偏好与轨迹中每一步的即时奖励直接相关,而忽略了人类在评估轨迹时会考虑整体结果的因素。这种假设导致信用分配不准确,难以学习到真正符合人类偏好的策略。

核心思路:HPL的核心思路是利用“后见之明”信息来建模人类偏好。具体来说,它不是直接将人类偏好与即时奖励关联,而是将奖励函数设计为以轨迹片段的未来结果为条件的函数。这样,模型就可以学习到人类在做出偏好判断时所考虑的长期影响,从而更准确地反映人类的真实偏好。

技术框架:HPL的整体框架包含以下几个主要步骤:1) 数据收集:收集包含轨迹片段和对应人类偏好的离线数据集。2) 后见之明信息建模:使用变分自编码器(VAE)学习轨迹片段未来结果的分布。VAE以轨迹片段为输入,输出未来结果的潜在表示。3) 奖励函数学习:学习一个以当前状态和未来结果的潜在表示为输入的奖励函数。该奖励函数的目标是最大化与人类偏好一致的奖励。4) 策略优化:使用学习到的奖励函数,通过离线强化学习算法(例如,Behavior Cloning或Q-learning)来优化策略。

关键创新:HPL最重要的技术创新点在于它将后见之明信息引入到离线偏好强化学习中。与现有方法不同,HPL不再假设人类偏好与即时奖励直接相关,而是通过建模未来结果的影响来更准确地反映人类的决策过程。这种方法能够更有效地进行信用分配,并学习到更符合人类偏好的策略。

关键设计:HPL的关键设计包括:1) 使用VAE来建模未来结果的分布。VAE能够有效地学习高维数据的潜在表示,并提供一种生成未来结果样本的方法。2) 将奖励函数设计为以当前状态和未来结果的潜在表示为输入的函数。这种设计使得奖励函数能够捕捉到未来结果对当前决策的影响。3) 使用对比损失函数来训练奖励函数。对比损失函数鼓励模型为人类偏好的轨迹片段对分配更高的奖励差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,HPL在多个领域都取得了显著的性能提升。例如,在MuJoCo连续控制任务中,HPL相比于基线方法,能够学习到更优的策略,并获得更高的奖励。此外,HPL还展现出更强的鲁棒性,能够更好地适应不同的环境和任务。

🎯 应用场景

HPL方法具有广泛的应用前景,例如机器人控制、游戏AI和推荐系统。在机器人控制中,可以利用人类对不同轨迹的偏好来训练机器人完成复杂任务。在游戏AI中,可以利用人类玩家的偏好来训练更智能、更人性化的游戏AI。在推荐系统中,可以利用用户对不同推荐结果的偏好来优化推荐策略,提高用户满意度。

📄 摘要(原文)

Offline preference-based reinforcement learning (RL), which focuses on optimizing policies using human preferences between pairs of trajectory segments selected from an offline dataset, has emerged as a practical avenue for RL applications. Existing works rely on extracting step-wise reward signals from trajectory-wise preference annotations, assuming that preferences correlate with the cumulative Markovian rewards. However, such methods fail to capture the holistic perspective of data annotation: Humans often assess the desirability of a sequence of actions by considering the overall outcome rather than the immediate rewards. To address this challenge, we propose to model human preferences using rewards conditioned on future outcomes of the trajectory segments, i.e. the hindsight information. For downstream RL optimization, the reward of each step is calculated by marginalizing over possible future outcomes, the distribution of which is approximated by a variational auto-encoder trained using the offline dataset. Our proposed method, Hindsight Preference Learning (HPL), can facilitate credit assignment by taking full advantage of vast trajectory data available in massive unlabeled datasets. Comprehensive empirical studies demonstrate the benefits of HPL in delivering robust and advantageous rewards across various domains. Our code is publicly released at https://github.com/typoverflow/WiseRL.