Beyond Autoregressive RTG: Conditioning via Injection Outside Sequential Modeling in Decision Transformer
作者: Yongyi Wang, Hanyu Liu, Lingfeng Li, Bozhou Chen, Ang Li, Qirui Zheng, Xionghui Yang, Chucai Wang, Wenxin Li
分类: cs.LG, cs.AI
发布日期: 2026-05-07
💡 一句话要点
SlimDT:通过序列建模外部注入条件信息,提升Decision Transformer效率与性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 离线强化学习 Decision Transformer 序列建模 Return-to-Go 自回归模型
📋 核心要点
- 传统Decision Transformer将Return-to-Go作为token处理,效率较低,且增加了Transformer的计算负担。
- SlimDT将Return-to-Go信息注入到状态表示中,避免将其作为单独的token进行自回归建模,减少序列长度。
- 实验表明,SlimDT在D4RL基准测试中超越了标准DT,并达到了与SOTA方法相当的性能,提升了效率。
📝 摘要(中文)
Decision Transformer (DT) 将离线强化学习建模为自回归序列建模,通过预测由Return-to-Go (RTG)、状态和动作组成的序列来实现。然而,RTG作为一个标量,包含的信息远少于状态或动作向量,却消耗了相同的计算资源。更糟糕的是,Transformer的自注意力成本随序列长度呈二次方增长,因此将RTG作为单独的token会增加不必要的开销。我们提出了SlimDT,它从自回归序列中移除RTG。相反,我们将RTG信息注入到状态表示中,然后在序列建模步骤之前进行处理,从而使Transformer仅处理紧凑的(状态,动作)序列。这减少了三分之一的序列长度,直接提高了推理效率。在D4RL基准测试中,SlimDT在各种任务中超越了标准DT,并实现了与现有最先进方法相当的性能。因此,将稀疏条件信号与信息丰富的序列解耦,既能获得计算收益,又能提高任务性能。
🔬 方法详解
问题定义:Decision Transformer (DT) 在离线强化学习中,将Return-to-Go (RTG) 作为序列的一部分进行自回归建模。然而,RTG 包含的信息量相对较少,但却占据了与状态和动作相同的计算资源。此外,由于 Transformer 的自注意力机制复杂度与序列长度呈平方关系,将 RTG 作为单独的 token 会显著增加计算开销,降低效率。
核心思路:SlimDT 的核心思路是将 RTG 从自回归序列中移除,不再将其作为一个独立的 token 进行处理。相反,它将 RTG 信息注入到状态表示中,然后在序列建模步骤之前进行处理。这样,Transformer 只需要处理一个更紧凑的 (状态,动作) 序列,从而减少了序列长度和计算复杂度。
技术框架:SlimDT 的整体框架如下:1) 输入状态 s 和 RTG 值 rtg;2) 将 rtg 注入到状态 s 的表示中,得到增强的状态表示 s';3) 将增强的状态表示 s' 和动作 a 组成序列 (s', a);4) 使用 Transformer 对 (s', a) 序列进行自回归建模,预测下一个动作。
关键创新:SlimDT 的关键创新在于将 RTG 信息从自回归序列中解耦出来,通过注入的方式融入到状态表示中。这与传统 DT 将 RTG 作为独立 token 的方式不同,避免了 RTG 对序列长度的增加,从而降低了计算复杂度,提高了效率。
关键设计:RTG 注入的具体方式未知,论文中可能没有详细说明。其他关键设计可能包括 Transformer 的层数、注意力头的数量、嵌入维度等超参数,以及训练过程中使用的损失函数和优化器。
🖼️ 关键图片
📊 实验亮点
SlimDT 在 D4RL 基准测试中取得了显著的性能提升。具体来说,SlimDT 在多个任务中超越了标准 DT,并达到了与现有最先进方法相当的性能水平。通过移除 RTG token,SlimDT 减少了三分之一的序列长度,从而直接提高了推理效率。这些实验结果表明,将稀疏条件信号与信息丰富的序列解耦,可以有效地提高 Decision Transformer 的性能和效率。
🎯 应用场景
SlimDT 的潜在应用领域包括机器人控制、游戏 AI、自动驾驶等离线强化学习任务。通过提高 Decision Transformer 的效率,SlimDT 可以加速模型的训练和推理过程,使其能够更好地应用于资源受限的场景。此外,SlimDT 的思想也可以推广到其他序列建模任务中,例如自然语言处理和时间序列预测。
📄 摘要(原文)
Decision Transformer (DT) formulates offline reinforcement learning as autoregressive sequence modeling, achieving promising results by predicting actions from a sequence of Return-to-Go (RTG), state, and action tokens. However, RTG is a scalar that summarizes future rewards, containing far less information than typical state or action vectors, yet it consumes the same computational budget per token. Worse, the self-attention cost of Transformers grows quadratically with sequence length, so including RTG as a separate token adds unnecessary overhead. We propose SlimDT, which removes RTG from the autoregressive sequence. Instead, we inject RTG information into the state representations before the sequential modeling step, allowing the Transformer to process only a compact (state, action) sequence. This reduces the sequence length by one-third, directly improving inference efficiency. On the D4RL benchmark, SlimDT surpasses standard DT across various tasks and achieves performance comparable to existing state-of-the-art methods. Decoupling a sparse conditioning signal from an information-rich sequence thus yields both computational gains and higher task performance.