In-Dataset Trajectory Return Regularization for Offline Preference-based Reinforcement Learning

📄 arXiv: 2412.09104v2 📥 PDF

作者: Songjun Tu, Jingbo Sun, Qichao Zhang, Yaocheng Zhang, Jia Liu, Ke Chen, Dongbin Zhao

分类: cs.AI, cs.LG

发布日期: 2024-12-12 (更新: 2024-12-21)

备注: 20 pages, Proceedings of the 39th AAAI Conference on Artificial Intelligence (AAAI-25)

期刊: Proceedings of the 39th AAAI Conference on Artificial Intelligence (AAAI2025)


💡 一句话要点

提出数据集内轨迹回报正则化(DTR)以解决离线偏好强化学习中的奖励偏差问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 偏好学习 奖励模型 轨迹回报 序列建模

📋 核心要点

  1. 离线偏好强化学习中,奖励模型偏差导致轨迹拼接时产生乐观估计,破坏了离线RL的悲观性。
  2. DTR利用条件序列建模,结合Decision Transformer和TD-Learning,平衡行为策略保真度和奖励优化。
  3. DTR引入集成归一化技术,有效整合多个奖励模型,在奖励区分度和准确性之间取得平衡,实验结果优于现有方法。

📝 摘要(中文)

离线偏好强化学习(PbRL)通常分两个阶段进行:首先,利用人类偏好学习奖励模型,并为无奖励的离线数据集标注奖励;其次,通过离线强化学习优化学习到的奖励,从而学习策略。然而,从轨迹级别的偏好反馈中准确建模逐步奖励存在内在挑战。引入的奖励偏差,特别是对预测奖励的过度估计,导致乐观的轨迹拼接,这破坏了离线强化学习阶段至关重要的悲观机制。为了应对这一挑战,我们提出了用于离线PbRL的数据集内轨迹回报正则化(DTR),它利用条件序列建模来减轻在奖励偏差下学习不准确轨迹拼接的风险。具体来说,DTR采用Decision Transformer和TD-Learning,以在高数据集内轨迹回报下保持对行为策略的忠实性,并在高奖励标签的基础上选择最佳动作之间取得平衡。此外,我们引入了一种集成归一化技术,可以有效地整合多个奖励模型,从而平衡奖励区分和准确性之间的权衡。在各种基准上的实证评估表明,DTR优于其他最先进的基线。

🔬 方法详解

问题定义:离线偏好强化学习(PbRL)旨在利用离线数据和人类偏好来学习最优策略。现有方法依赖于先学习奖励模型,然后使用离线强化学习算法优化该奖励模型。然而,从轨迹级别的偏好反馈中学习准确的奖励模型非常困难,尤其容易产生奖励偏差,即对奖励的过度估计。这种奖励偏差会导致在轨迹拼接时产生乐观的估计,从而破坏了离线强化学习中至关重要的悲观性,最终导致策略性能下降。

核心思路:论文的核心思路是通过引入数据集内轨迹回报正则化(DTR)来缓解奖励偏差带来的问题。DTR的核心思想是利用数据集本身的信息来约束策略的学习,避免过度依赖可能存在偏差的奖励模型。具体来说,DTR通过条件序列建模,学习在给定数据集内轨迹回报的条件下,如何选择最优的动作。这样,即使奖励模型存在偏差,策略也能通过参考数据集内的真实轨迹回报来做出更合理的决策。

技术框架:DTR的整体框架包含以下几个主要模块:1) 奖励模型学习:使用人类偏好数据学习多个奖励模型。2) 数据集内轨迹回报建模:利用Decision Transformer学习数据集内轨迹回报的条件分布。3) 策略学习:结合学习到的奖励模型和数据集内轨迹回报模型,使用TD-Learning来优化策略。4) 集成归一化:使用一种特殊的归一化方法来整合多个奖励模型,平衡奖励区分度和准确性。

关键创新:DTR的关键创新在于将数据集内轨迹回报信息引入到离线偏好强化学习中。与传统方法只依赖于学习到的奖励模型不同,DTR同时考虑了数据集内的真实轨迹回报,从而能够更好地应对奖励偏差问题。此外,DTR提出的集成归一化方法也能够有效地整合多个奖励模型,提高奖励模型的鲁棒性。

关键设计:DTR的关键设计包括:1) 使用Decision Transformer来建模数据集内轨迹回报的条件分布,Decision Transformer能够有效地捕捉序列数据中的依赖关系。2) 使用TD-Learning来优化策略,TD-Learning是一种经典的强化学习算法,能够有效地利用奖励信号来学习最优策略。3) 提出了一种新的集成归一化方法,该方法能够自适应地调整不同奖励模型的权重,从而平衡奖励区分度和准确性。具体的损失函数包括奖励预测损失、轨迹回报预测损失和策略优化损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DTR在多个基准测试中优于其他最先进的离线偏好强化学习算法。例如,在某些任务中,DTR的性能比现有最佳算法提高了10%以上。这些结果表明,DTR能够有效地缓解奖励偏差问题,并提高离线偏好强化学习的性能。此外,实验还验证了DTR中各个模块的有效性,例如数据集内轨迹回报建模和集成归一化。

🎯 应用场景

DTR可应用于需要从人类偏好中学习策略的各种场景,例如机器人控制、游戏AI和推荐系统。在这些场景中,获取准确的奖励函数非常困难,而人类偏好提供了一种更自然和有效的反馈方式。DTR通过缓解奖励偏差问题,能够提高离线偏好强化学习的性能,从而使这些应用更加实用和有效。未来,DTR可以进一步扩展到更复杂的环境和任务中,例如多智能体系统和持续学习。

📄 摘要(原文)

Offline preference-based reinforcement learning (PbRL) typically operates in two phases: first, use human preferences to learn a reward model and annotate rewards for a reward-free offline dataset; second, learn a policy by optimizing the learned reward via offline RL. However, accurately modeling step-wise rewards from trajectory-level preference feedback presents inherent challenges. The reward bias introduced, particularly the overestimation of predicted rewards, leads to optimistic trajectory stitching, which undermines the pessimism mechanism critical to the offline RL phase. To address this challenge, we propose In-Dataset Trajectory Return Regularization (DTR) for offline PbRL, which leverages conditional sequence modeling to mitigate the risk of learning inaccurate trajectory stitching under reward bias. Specifically, DTR employs Decision Transformer and TD-Learning to strike a balance between maintaining fidelity to the behavior policy with high in-dataset trajectory returns and selecting optimal actions based on high reward labels. Additionally, we introduce an ensemble normalization technique that effectively integrates multiple reward models, balancing the tradeoff between reward differentiation and accuracy. Empirical evaluations on various benchmarks demonstrate the superiority of DTR over other state-of-the-art baselines.