Return Augmented Decision Transformer for Off-Dynamics Reinforcement Learning
作者: Ruhan Wang, Yu Yang, Zhishuai Liu, Dongruo Zhou, Pan Xu
分类: cs.LG, cs.AI, cs.RO, stat.ML
发布日期: 2024-10-30
备注: 26 pages, 10 tables, 10 figures
💡 一句话要点
提出Return Augmented Decision Transformer解决离线异构强化学习问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 离线强化学习 异构强化学习 决策Transformer 回报条件监督学习 领域自适应
📋 核心要点
- 现有方法难以直接应用于回报条件监督学习(RCSL),因为RCSL策略显式依赖于回报,且缺乏最优轨迹分布的直接表示。
- 提出Return Augmented Decision Transformer (RADT),通过对齐源域和目标域的回报分布来增强源域的回报。
- 在D4RL数据集上的实验表明,RADT方法在异构强化学习场景中优于基于动态规划的方法。
📝 摘要(中文)
本文研究离线异构强化学习,旨在利用易于获取的源域数据来增强目标域中数据有限情况下的策略学习。我们的方法以回报条件监督学习(RCSL)为中心,特别关注决策Transformer(DT),它可以根据期望的回报指导和完整的轨迹历史来预测动作。先前的工作通过增强源域轨迹中的奖励以匹配目标域中的最优轨迹来解决动态转移问题。然而,由于(1)RCSL策略类的独特形式,它显式地依赖于回报,以及(2)缺乏最优轨迹分布的直接表示,这种策略不能直接应用于RCSL。我们提出了回报增强决策Transformer(RADT)方法,其中我们通过将源域中的回报分布与目标域中的回报分布对齐来增强回报。我们提供了理论分析,证明了从RADT学习的RCSL策略实现了与没有动态转移时相同的次优水平。我们介绍了两种实际实现RADT-DARA和RADT-MV。在D4RL数据集上进行的大量实验表明,我们的方法通常优于异构强化学习场景中基于动态规划的方法。
🔬 方法详解
问题定义:论文旨在解决离线异构强化学习(Off-Dynamics Reinforcement Learning)问题。该问题是指在目标域数据有限的情况下,如何利用来自易于获取的源域数据来提升策略学习效果。现有方法,例如通过增强源域轨迹中的奖励来匹配目标域的最优轨迹,在回报条件监督学习(RCSL)框架下存在局限性,因为RCSL策略显式依赖于回报,且缺乏对最优轨迹分布的直接表示。
核心思路:RADT的核心思路是通过增强源域的回报,使其分布与目标域的回报分布对齐。这样,模型可以更好地利用源域数据,学习到适用于目标域的策略。这种方法避免了直接修改奖励函数或轨迹,而是通过调整回报这一关键条件来适应动态转移。
技术框架:RADT方法基于决策Transformer(DT)框架,整体流程如下:1. 从源域和目标域收集离线数据。2. 使用DARA或MV方法对源域的回报进行增强,使其分布与目标域对齐。3. 使用增强后的源域数据和目标域数据训练决策Transformer。4. 使用训练好的决策Transformer在目标域进行策略部署。
关键创新:RADT的关键创新在于提出了回报增强(Return Augmentation)的概念,并将其应用于决策Transformer框架。与以往直接修改奖励或轨迹的方法不同,RADT通过对齐回报分布来解决动态转移问题,更适用于RCSL场景。此外,论文提供了理论分析,证明了RADT方法能够达到与无动态转移时相同的次优水平。
关键设计:论文提出了两种回报增强的实现方式:RADT-DARA和RADT-MV。RADT-DARA使用Domain Adversarial Reward Augmentation,通过对抗学习来对齐回报分布。RADT-MV使用Moment Matching Value,通过匹配回报的均值和方差来对齐回报分布。损失函数包括标准的决策Transformer损失和用于回报对齐的对抗损失或矩匹配损失。网络结构基于标准的Transformer架构。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RADT方法在D4RL数据集上优于基于动态规划的方法。具体而言,RADT-DARA和RADT-MV在多个任务上都取得了显著的性能提升,证明了回报增强策略的有效性。例如,在某些任务上,RADT的性能提升超过了10%,表明其在解决异构强化学习问题上的优越性。
🎯 应用场景
RADT方法可应用于机器人控制、自动驾驶、游戏AI等领域,尤其是在数据获取成本高昂或存在领域差异的情况下。例如,可以利用模拟环境中的大量数据(源域)来提升真实环境中的机器人控制策略(目标域),从而降低实验成本和风险。该研究有助于推动强化学习在实际场景中的应用。
📄 摘要(原文)
We study offline off-dynamics reinforcement learning (RL) to utilize data from an easily accessible source domain to enhance policy learning in a target domain with limited data. Our approach centers on return-conditioned supervised learning (RCSL), particularly focusing on the decision transformer (DT), which can predict actions conditioned on desired return guidance and complete trajectory history. Previous works tackle the dynamics shift problem by augmenting the reward in the trajectory from the source domain to match the optimal trajectory in the target domain. However, this strategy can not be directly applicable in RCSL owing to (1) the unique form of the RCSL policy class, which explicitly depends on the return, and (2) the absence of a straightforward representation of the optimal trajectory distribution. We propose the Return Augmented Decision Transformer (RADT) method, where we augment the return in the source domain by aligning its distribution with that in the target domain. We provide the theoretical analysis demonstrating that the RCSL policy learned from RADT achieves the same level of suboptimality as would be obtained without a dynamics shift. We introduce two practical implementations RADT-DARA and RADT-MV respectively. Extensive experiments conducted on D4RL datasets reveal that our methods generally outperform dynamic programming based methods in off-dynamics RL scenarios.