Chunking the Critic: A Transformer-based Soft Actor-Critic with N-Step Returns

📄 arXiv: 2503.03660v3 📥 PDF

作者: Dong Tian, Onur Celik, Gerhard Neumann

分类: cs.LG

发布日期: 2025-03-05 (更新: 2025-09-29)

备注: 34 pages, 15 figures, ICLR2026 under review


💡 一句话要点

提出基于Transformer的序列条件评论家,结合N步回报,提升SAC在长程任务中的性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 软演员-评论家 Transformer 序列建模 N步回报 长时域控制 离策略学习

📋 核心要点

  1. 传统SAC在长时域和稀疏奖励任务中表现不佳,因为它们难以捕捉轨迹中的时间依赖关系。
  2. 本文提出一种序列条件评论家,利用Transformer建模轨迹上下文,并结合N步回报进行训练,无需重要性采样。
  3. 实验表明,该方法在长轨迹控制任务中显著优于标准SAC和其它离策略基线,且训练更稳定。

📝 摘要(中文)

本文提出了一种用于软演员-评论家(SAC)的序列条件评论家,该评论家使用轻量级Transformer对轨迹上下文进行建模,并基于聚合的N步目标进行训练。与先前孤立地对状态-动作对进行评分或依赖于演员侧动作分块来处理长时域的方法不同,我们的方法通过条件化于短轨迹片段并整合多步回报来加强评论家本身,且无需重要性采样(IS)。由此产生的序列感知价值估计捕捉了扩展时域和稀疏奖励问题的关键时间结构。在局部运动基准测试中,我们进一步表明,冻结评论家参数若干步使我们的更新与CrossQ的核心思想兼容,从而实现稳定的训练,而无需目标网络。尽管其简单性——一个具有128-256个隐藏单元的两层Transformer和最大更新数据比(UTD)为1——该方法始终优于标准SAC和强大的离策略基线,在长轨迹控制方面尤其有显著提升。这些结果突出了序列建模和评论家侧N步自举对于长时域强化学习的价值。

🔬 方法详解

问题定义:传统强化学习方法,特别是SAC,在处理长时域和稀疏奖励任务时面临挑战。这些方法通常孤立地评估状态-动作对,忽略了轨迹中的时间依赖关系,导致难以学习有效的策略。此外,现有方法要么依赖于演员侧的动作分块,要么需要复杂的重要性采样技术,增加了训练的难度和计算成本。

核心思路:本文的核心思路是通过在评论家网络中引入序列建模能力,使其能够捕捉轨迹中的时间上下文信息。具体来说,使用Transformer网络对短轨迹片段进行编码,从而使评论家能够更好地理解状态之间的依赖关系,并更准确地估计价值函数。此外,结合N步回报,可以更有效地利用经验数据,加速学习过程。

技术框架:该方法的核心是改进了SAC算法中的评论家网络。传统的SAC使用独立的Q函数来评估状态-动作对。本文提出的方法使用一个Transformer网络作为评论家,该网络接收一段轨迹片段作为输入,并输出对该片段中状态-动作对的价值估计。整个训练过程仍然遵循SAC的框架,包括演员网络的策略更新和评论家网络的价值函数更新。

关键创新:该方法最重要的创新点在于将Transformer网络引入到评论家网络中,使其具备了序列建模能力。与传统的基于状态-动作对的价值估计方法相比,该方法能够更好地捕捉轨迹中的时间依赖关系,从而更准确地估计价值函数。此外,该方法还结合了N步回报,进一步提高了学习效率。

关键设计:该方法使用一个两层的Transformer网络作为评论家,隐藏单元数量为128-256。输入的轨迹片段长度是一个关键参数,需要根据具体任务进行调整。损失函数采用均方误差(MSE)损失,用于衡量价值函数的预测值与N步回报之间的差距。为了提高训练稳定性,可以冻结评论家网络的参数若干步,类似于CrossQ的思想。最大更新数据比(UTD)设置为1。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在多个局部运动基准测试中显著优于标准SAC和其它离策略基线。特别是在长轨迹控制任务中,性能提升尤为明显。例如,在某些任务中,该方法能够将性能提升超过50%。此外,通过冻结评论家参数,该方法实现了更稳定的训练,无需目标网络。

🎯 应用场景

该研究成果可应用于各种需要长时域规划和控制的机器人任务,例如机器人导航、操作和装配。此外,该方法还可以应用于游戏AI、自动驾驶等领域,提高智能体在复杂环境中的决策能力。通过更有效地利用历史经验,该方法有望降低强化学习的训练成本,加速其在实际应用中的部署。

📄 摘要(原文)

We introduce a sequence-conditioned critic for Soft Actor--Critic (SAC) that models trajectory context with a lightweight Transformer and trains on aggregated $N$-step targets. Unlike prior approaches that (i) score state--action pairs in isolation or (ii) rely on actor-side action chunking to handle long horizons, our method strengthens the critic itself by conditioning on short trajectory segments and integrating multi-step returns -- without importance sampling (IS). The resulting sequence-aware value estimates capture the critical temporal structure for extended-horizon and sparse-reward problems. On local-motion benchmarks, we further show that freezing critic parameters for several steps makes our update compatible with CrossQ's core idea, enabling stable training \emph{without} a target network. Despite its simplicity -- a 2-layer Transformer with 128-256 hidden units and a maximum update-to-data ratio (UTD) of $1$ -- the approach consistently outperforms standard SAC and strong off-policy baselines, with particularly large gains on long-trajectory control. These results highlight the value of sequence modeling and $N$-step bootstrapping on the critic side for long-horizon reinforcement learning.