SelfBC: Self Behavior Cloning for Offline Reinforcement Learning

📄 arXiv: 2408.02165v1 📥 PDF

作者: Shirong Liu, Chenjia Bai, Zixian Guo, Hao Zhang, Gaurav Sharma, Yang Liu

分类: cs.LG, cs.AI

发布日期: 2024-08-04


💡 一句话要点

SelfBC:离线强化学习中基于自行为克隆的动态策略约束方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 策略约束 行为克隆 动态约束 指数移动平均

📋 核心要点

  1. 现有离线强化学习的策略约束方法因其静态约束导致策略过于保守,限制了性能提升。
  2. SelfBC提出一种动态策略约束,利用先前策略的指数移动平均生成样本,约束当前策略,避免策略崩溃。
  3. 实验表明,SelfBC在D4RL MuJoCo数据集上取得了领先的性能,验证了其有效性。

📝 摘要(中文)

离线强化学习中的策略约束方法通常采用额外的正则化技术来约束学习到的策略与离线数据集之间的差异。然而,这些方法往往导致过于保守的策略,类似于行为策略,从而限制了它们的性能。我们研究了这种局限性,并将其归因于传统约束的静态性质。在本文中,我们提出了一种新颖的动态策略约束,该约束限制了学习到的策略在先前学习策略的指数移动平均生成的样本上。通过将这种自约束机制集成到离策略方法中,我们的方法有助于学习非保守策略,同时避免离线环境中的策略崩溃。理论结果表明,我们的方法可以实现几乎单调改进的参考策略。在D4RL MuJoCo领域的大量实验表明,我们提出的方法在策略约束方法中实现了最先进的性能。

🔬 方法详解

问题定义:离线强化学习旨在利用静态数据集训练策略,而无需与环境交互。策略约束方法通过限制学习到的策略与数据集中的行为策略的偏差来保证训练的稳定性。然而,现有方法采用静态约束,导致学习到的策略过于保守,无法超越数据集中的次优行为。因此,如何设计一种动态的策略约束,在保证稳定性的同时,提升策略的探索能力,是本文要解决的核心问题。

核心思路:SelfBC的核心思路是引入一种动态的策略约束,该约束不是基于固定的行为策略,而是基于先前学习到的策略的指数移动平均(EMA)。通过这种方式,约束目标会随着训练的进行而逐渐演变,从而允许策略在探索新的行为的同时,保持一定的稳定性。这种自约束机制可以避免策略崩溃,并促进学习到更优的非保守策略。

技术框架:SelfBC方法主要包含以下几个关键模块:1) 离线数据集;2) 策略网络和价值网络;3) EMA策略网络,用于生成动态约束目标;4) 策略更新模块,其中包含一个策略约束项,用于限制当前策略与EMA策略的偏差。训练流程如下:首先,利用离线数据集初始化策略网络和价值网络。然后,在每次迭代中,利用当前策略生成样本,并使用这些样本更新策略网络和价值网络。同时,使用EMA更新EMA策略网络。最后,在策略更新过程中,加入一个策略约束项,该约束项限制当前策略与EMA策略的偏差。

关键创新:SelfBC的关键创新在于提出了动态策略约束的概念,并将其应用于离线强化学习中。与传统的静态策略约束方法相比,SelfBC的动态约束能够更好地平衡策略的探索和稳定性,从而学习到更优的非保守策略。此外,SelfBC通过EMA的方式更新约束目标,避免了直接使用当前策略作为约束目标可能导致的训练不稳定问题。

关键设计:SelfBC的关键设计包括:1) 使用EMA更新EMA策略网络,EMA的衰减系数是一个重要的超参数,需要仔细调整;2) 策略约束项的设计,通常使用KL散度或MMD距离来衡量当前策略与EMA策略的偏差;3) 损失函数的设计,通常包括策略梯度损失、价值函数损失和策略约束损失,需要平衡三者之间的权重。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SelfBC在D4RL MuJoCo数据集上进行了广泛的实验,结果表明,SelfBC在多个任务上取得了最先进的性能。例如,在halfcheetah-medium-replay任务上,SelfBC的平均得分超过了SAC-N和BCQ等基线方法,提升幅度显著。此外,实验还验证了SelfBC的动态策略约束机制的有效性,表明其能够更好地平衡策略的探索和稳定性,从而学习到更优的非保守策略。

🎯 应用场景

SelfBC方法在离线强化学习领域具有广泛的应用前景,例如机器人控制、自动驾驶、推荐系统等。在这些领域中,通常存在大量的离线数据,但与环境交互的成本很高。SelfBC可以有效地利用这些离线数据训练出高性能的策略,从而降低与环境交互的成本,并提高系统的性能。此外,SelfBC的动态策略约束机制可以避免策略崩溃,并促进学习到更优的非保守策略,这对于解决实际应用中的复杂问题具有重要意义。

📄 摘要(原文)

Policy constraint methods in offline reinforcement learning employ additional regularization techniques to constrain the discrepancy between the learned policy and the offline dataset. However, these methods tend to result in overly conservative policies that resemble the behavior policy, thus limiting their performance. We investigate this limitation and attribute it to the static nature of traditional constraints. In this paper, we propose a novel dynamic policy constraint that restricts the learned policy on the samples generated by the exponential moving average of previously learned policies. By integrating this self-constraint mechanism into off-policy methods, our method facilitates the learning of non-conservative policies while avoiding policy collapse in the offline setting. Theoretical results show that our approach results in a nearly monotonically improved reference policy. Extensive experiments on the D4RL MuJoCo domain demonstrate that our proposed method achieves state-of-the-art performance among the policy constraint methods.