Q-value Regularized Decision ConvFormer for Offline Reinforcement Learning

📄 arXiv: 2409.08062v1 📥 PDF

作者: Teng Yan, Zhendong Ruan, Yaobang Cai, Yu Han, Wenxian Li, Yang Zhang

分类: cs.LG, cs.RO

发布日期: 2024-09-12


💡 一句话要点

提出Q值正则化Decision ConvFormer,提升离线强化学习轨迹拼接能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 序列建模 Decision Transformer Q值正则化 轨迹拼接

📋 核心要点

  1. Decision Transformer在离线强化学习中表现出色,但其轨迹拼接能力受限于样本回报与最优回报的不一致性。
  2. QDC结合Decision ConvFormer的轨迹建模能力,并引入Q值正则化,确保期望回报与最优回报的一致性。
  3. QDC在D4RL基准测试中表现优异,尤其在轨迹拼接能力方面展现出强大的竞争力。

📝 摘要(中文)

离线强化学习作为一种数据驱动的范式,已被形式化为序列建模,其中Decision Transformer (DT) 表现出卓越的能力。与拟合价值函数或计算策略梯度的传统强化学习方法不同,DT基于期望回报、过去的状态和动作调整自回归模型,并使用因果掩码Transformer输出最优动作。然而,由于单个轨迹内的样本回报与多个轨迹之间的最优回报不一致,因此难以设置期望回报以输出最优动作并拼接次优轨迹。Decision ConvFormer (DC) 在马尔可夫决策过程中对RL轨迹进行建模,比DT更容易理解。我们提出了Q值正则化Decision ConvFormer (QDC),它结合了DC对RL轨迹的理解,并在训练过程中加入了一个使用动态规划方法最大化动作值的项。这确保了采样动作的期望回报与最优回报一致。QDC在D4RL基准测试中取得了优异的性能,在所有测试环境中都优于或接近最优水平。它尤其在轨迹拼接能力方面表现出卓越的竞争力。

🔬 方法详解

问题定义:离线强化学习旨在利用预先收集好的数据集训练智能体,而无需与环境进行交互。Decision Transformer (DT) 虽然在离线强化学习中取得了显著成果,但由于训练数据中次优轨迹的存在,以及单个轨迹内的回报与全局最优回报的不一致性,导致DT难以有效地拼接次优轨迹,从而限制了其性能。

核心思路:QDC的核心思路是将Decision ConvFormer (DC) 的轨迹建模能力与Q值正则化相结合。DC更容易理解RL轨迹在马尔可夫决策过程中的建模方式。通过引入Q值正则化项,QDC能够显式地优化动作价值函数,从而确保采样动作的期望回报与最优回报相一致,进而提升轨迹拼接能力。

技术框架:QDC的整体框架基于Decision ConvFormer,它使用卷积神经网络来处理状态和动作序列,并使用Transformer进行序列建模。在训练过程中,QDC不仅优化序列建模的目标,还引入了一个Q值正则化项。该正则化项利用动态规划方法,最大化采样动作的Q值,从而引导模型学习更优的策略。

关键创新:QDC的关键创新在于将Q值正则化引入到基于序列建模的离线强化学习框架中。与传统的离线强化学习方法不同,QDC不是直接拟合价值函数或策略梯度,而是通过优化Q值来约束序列模型的学习过程,从而提高模型的稳定性和泛化能力。

关键设计:QDC的关键设计包括:1) 使用Decision ConvFormer作为基础模型,以更好地捕捉RL轨迹的局部相关性;2) 引入Q值正则化项,其损失函数基于动态规划方法计算目标Q值,并使用均方误差进行优化;3) 通过调整Q值正则化项的权重,平衡序列建模和Q值优化之间的关系。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

QDC在D4RL基准测试中取得了优异的性能,在所有测试环境中都优于或接近最优水平。尤其是在halfcheetah-medium-replay和walker2d-medium-replay等需要较强轨迹拼接能力的环境中,QDC的性能提升尤为显著。实验结果表明,QDC能够有效地利用次优数据,学习到更优的策略,并具有更强的泛化能力。

🎯 应用场景

QDC在离线强化学习领域具有广泛的应用前景,例如机器人控制、自动驾驶、推荐系统和金融交易等。它可以利用历史数据训练智能体,使其能够在复杂环境中做出更优的决策,从而提高系统的效率和性能。此外,QDC的轨迹拼接能力使其能够更好地利用次优数据,降低对高质量数据的依赖,从而降低数据收集的成本。

📄 摘要(原文)

As a data-driven paradigm, offline reinforcement learning (Offline RL) has been formulated as sequence modeling, where the Decision Transformer (DT) has demonstrated exceptional capabilities. Unlike previous reinforcement learning methods that fit value functions or compute policy gradients, DT adjusts the autoregressive model based on the expected returns, past states, and actions, using a causally masked Transformer to output the optimal action. However, due to the inconsistency between the sampled returns within a single trajectory and the optimal returns across multiple trajectories, it is challenging to set an expected return to output the optimal action and stitch together suboptimal trajectories. Decision ConvFormer (DC) is easier to understand in the context of modeling RL trajectories within a Markov Decision Process compared to DT. We propose the Q-value Regularized Decision ConvFormer (QDC), which combines the understanding of RL trajectories by DC and incorporates a term that maximizes action values using dynamic programming methods during training. This ensures that the expected returns of the sampled actions are consistent with the optimal returns. QDC achieves excellent performance on the D4RL benchmark, outperforming or approaching the optimal level in all tested environments. It particularly demonstrates outstanding competitiveness in trajectory stitching capability.