Should We Ever Prefer Decision Transformer for Offline Reinforcement Learning?
作者: Yumi Omori, Zixuan Dong, Keith Ross
分类: cs.AI, cs.LG
发布日期: 2025-07-14
备注: Accepted by RLBrew: Ingredients for Developing Generalist Agents workshop (RLC 2025)
💡 一句话要点
针对稀疏奖励离线强化学习,过滤行为克隆方法优于决策Transformer
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 离线强化学习 决策Transformer 行为克隆 稀疏奖励 数据过滤
📋 核心要点
- 现有研究表明决策Transformer(DT)在离线强化学习中表现优异,尤其是在稀疏奖励环境中。
- 本文提出过滤行为克隆(FBC)方法,通过过滤低性能轨迹,提升行为克隆在稀疏奖励环境下的性能。
- 实验表明,在机器人操作和运动基准测试中,FBC在稀疏奖励环境下优于或等同于DT,且更高效。
📝 摘要(中文)
近年来,Transformer架构在强化学习问题中的应用受到了广泛关注。其中,决策Transformer(DT)因其将回报条件策略学习构建为序列建模任务的能力,在离线强化学习领域备受瞩目。最近,Bhargava等人(2024)系统地比较了DT与更传统的基于MLP的离线RL算法,包括行为克隆(BC)和保守Q学习(CQL),并声称DT在稀疏奖励和低质量数据设置中表现出优越的性能。本文通过在机器人操作任务(Robomimic)和运动基准(D4RL)上的实验表明,基于MLP的过滤行为克隆(FBC)在稀疏奖励环境中实现了与DT相比具有竞争力的或更优越的性能。FBC简单地从数据集中过滤掉低性能轨迹,然后对过滤后的数据集执行普通行为克隆。FBC不仅非常简单,而且需要的训练数据更少,计算效率更高。因此,结果表明DT对于稀疏奖励环境不是首选。从先前的工作来看,DT对于密集奖励环境也不是首选。因此,我们提出问题:DT在什么情况下才是首选?
🔬 方法详解
问题定义:论文旨在评估决策Transformer(DT)在离线强化学习,特别是稀疏奖励环境下的有效性。现有研究声称DT在稀疏奖励环境下优于传统方法,但本文质疑这一结论,并探索更简单且高效的替代方案。
核心思路:论文的核心思路是,通过简单的过滤行为克隆(FBC)方法,即先从离线数据集中移除低性能的轨迹,然后使用行为克隆(BC)方法进行策略学习,可以达到甚至超过DT在稀疏奖励环境下的性能。这种方法基于一个假设,即高质量的数据对于学习有效的策略至关重要,而简单地过滤掉低质量数据可以显著提升学习效果。
技术框架:FBC的技术框架非常简单。它包含两个主要步骤:1) 数据过滤:根据某种指标(例如,轨迹的回报值)对离线数据集中的轨迹进行排序,并移除低于某个阈值的轨迹。2) 行为克隆:使用过滤后的数据集,通过标准的行为克隆方法训练一个策略网络,使其模仿数据集中的行为。
关键创新:论文的关键创新在于证明了在稀疏奖励环境下,简单的数据过滤策略结合行为克隆可以胜过复杂的决策Transformer。这挑战了DT在稀疏奖励环境下的优越性,并表明在某些情况下,更简单的方法可能更有效。
关键设计:FBC的关键设计在于如何选择合适的过滤阈值。论文中可能探讨了不同的过滤策略,例如基于回报百分比的过滤或基于固定回报值的过滤。此外,行为克隆部分的网络结构和训练参数也需要进行适当的调整,以适应过滤后的数据集。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在Robomimic和D4RL数据集上,FBC在稀疏奖励环境下取得了与DT相当甚至更优的性能。同时,FBC所需的训练数据更少,计算效率更高,证明了其在稀疏奖励环境下的优越性。这些结果挑战了DT在稀疏奖励环境下的首选地位。
🎯 应用场景
该研究成果可应用于机器人控制、游戏AI等领域。通过简单的数据过滤和行为克隆,可以高效地训练出在稀疏奖励环境下表现良好的策略。该方法降低了对复杂算法的需求,使得离线强化学习更容易应用到实际问题中,具有重要的实际价值和潜在影响。
📄 摘要(原文)
In recent years, extensive work has explored the application of the Transformer architecture to reinforcement learning problems. Among these, Decision Transformer (DT) has gained particular attention in the context of offline reinforcement learning due to its ability to frame return-conditioned policy learning as a sequence modeling task. Most recently, Bhargava et al. (2024) provided a systematic comparison of DT with more conventional MLP-based offline RL algorithms, including Behavior Cloning (BC) and Conservative Q-Learning (CQL), and claimed that DT exhibits superior performance in sparse-reward and low-quality data settings. In this paper, through experimentation on robotic manipulation tasks (Robomimic) and locomotion benchmarks (D4RL), we show that MLP-based Filtered Behavior Cloning (FBC) achieves competitive or superior performance compared to DT in sparse-reward environments. FBC simply filters out low-performing trajectories from the dataset and then performs ordinary behavior cloning on the filtered dataset. FBC is not only very straightforward, but it also requires less training data and is computationally more efficient. The results therefore suggest that DT is not preferable for sparse-reward environments. From prior work, arguably, DT is also not preferable for dense-reward environments. Thus, we pose the question: Is DT ever preferable?