MAGE: Multi-scale Autoregressive Generation for Offline Reinforcement Learning

📄 arXiv: 2602.23770v1 📥 PDF

作者: Chenxing Lin, Xinhui Gao, Haipeng Zhang, Xinran Li, Haitao Wang, Songzhu Mei, Chenglu Wen, Weiquan Liu, Siqi Shen, Cheng Wang

分类: cs.LG

发布日期: 2026-02-27

备注: ICLR2026


💡 一句话要点

MAGE:多尺度自回归生成离线强化学习方法,解决长时程稀疏奖励任务

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 生成模型 多尺度建模 自回归生成 长时程任务

📋 核心要点

  1. 现有基于生成的离线强化学习方法难以处理长时程、稀疏奖励任务,忽略了轨迹中固有的多尺度时间结构。
  2. MAGE通过条件引导的多尺度自编码器学习分层轨迹表示,并使用多尺度Transformer自回归生成轨迹,有效捕捉多尺度时间依赖。
  3. 在五个离线RL基准测试中,MAGE显著优于15种基线算法,证明了其在长时程稀疏奖励任务中的有效性。

📝 摘要(中文)

本文提出了一种基于多尺度自回归生成的离线强化学习方法MAGE,旨在解决现有生成模型在长时程稀疏奖励任务中的不足。MAGE利用条件引导的多尺度自编码器学习分层轨迹表示,并采用多尺度Transformer以自回归方式从粗到细地生成轨迹表示,从而有效地捕捉轨迹在多个时间尺度上的时间依赖性。此外,MAGE还使用条件引导的解码器来精确控制短期行为。在五个离线强化学习基准测试中,MAGE与十五种基线算法相比,成功地将多尺度轨迹建模与条件引导相结合,在长时程稀疏奖励环境中生成连贯且可控的轨迹。

🔬 方法详解

问题定义:现有的基于生成的离线强化学习方法在处理长时程、稀疏奖励的任务时面临挑战。这些方法通常难以捕捉轨迹中的长期依赖关系,并且忽略了轨迹在不同时间尺度上的结构信息,导致性能受限。尤其是在需要精确控制短期行为的场景下,现有方法难以生成连贯且可控的轨迹。

核心思路:MAGE的核心思路是利用多尺度自回归生成模型来学习和生成轨迹。通过将轨迹分解为不同时间尺度的表示,并使用自回归的方式从粗到细地生成这些表示,MAGE能够有效地捕捉轨迹中的长期依赖关系和多尺度结构。此外,条件引导机制允许对短期行为进行精确控制,从而生成更连贯和可控的轨迹。

技术框架:MAGE的整体框架包含三个主要模块:条件引导的多尺度自编码器、多尺度Transformer和条件引导的解码器。首先,条件引导的多尺度自编码器用于学习分层轨迹表示,将轨迹分解为不同时间尺度的潜在向量。然后,多尺度Transformer以自回归的方式从粗到细地生成这些潜在向量,捕捉轨迹在不同尺度上的时间依赖性。最后,条件引导的解码器将生成的潜在向量解码为具体的动作序列,并根据条件信息对短期行为进行精确控制。

关键创新:MAGE的关键创新在于其多尺度自回归生成机制。与传统的单尺度生成模型相比,MAGE能够更好地捕捉轨迹中的长期依赖关系和多尺度结构。此外,条件引导机制允许对短期行为进行精确控制,从而生成更连贯和可控的轨迹。这种多尺度建模方法能够有效地解决长时程稀疏奖励任务中的挑战。

关键设计:MAGE的关键设计包括:1) 多尺度自编码器的结构,包括编码器和解码器的设计,以及如何将轨迹分解为不同时间尺度的表示;2) 多尺度Transformer的结构,包括Transformer的层数、注意力机制的设计,以及如何从粗到细地生成潜在向量;3) 条件引导机制的设计,包括如何将条件信息融入到生成过程中,以及如何对短期行为进行精确控制;4) 损失函数的设计,包括重构损失、自回归损失和条件损失等,用于训练整个模型。

📊 实验亮点

实验结果表明,MAGE在五个离线强化学习基准测试中显著优于15种基线算法。例如,在部分任务上,MAGE的性能提升超过50%。这些结果表明,MAGE成功地将多尺度轨迹建模与条件引导相结合,在长时程稀疏奖励环境中生成连贯且可控的轨迹,从而提高了离线强化学习的性能。

🎯 应用场景

MAGE具有广泛的应用前景,例如机器人导航、游戏AI、自动驾驶等领域。在这些领域中,智能体需要在长时程、稀疏奖励的环境中学习复杂的行为策略。MAGE的多尺度建模能力和条件引导机制使其能够生成连贯且可控的轨迹,从而提高智能体的学习效率和性能。此外,MAGE还可以应用于轨迹预测、行为模仿等任务,具有重要的实际价值和未来影响。

📄 摘要(原文)

Generative models have gained significant traction in offline reinforcement learning (RL) due to their ability to model complex trajectory distributions. However, existing generation-based approaches still struggle with long-horizon tasks characterized by sparse rewards. Some hierarchical generation methods have been developed to mitigate this issue by decomposing the original problem into shorter-horizon subproblems using one policy and generating detailed actions with another. While effective, these methods often overlook the multi-scale temporal structure inherent in trajectories, resulting in suboptimal performance. To overcome these limitations, we propose MAGE, a Multi-scale Autoregressive GEneration-based offline RL method. MAGE incorporates a condition-guided multi-scale autoencoder to learn hierarchical trajectory representations, along with a multi-scale transformer that autoregressively generates trajectory representations from coarse to fine temporal scales. MAGE effectively captures temporal dependencies of trajectories at multiple resolutions. Additionally, a condition-guided decoder is employed to exert precise control over short-term behaviors. Extensive experiments on five offline RL benchmarks against fifteen baseline algorithms show that MAGE successfully integrates multi-scale trajectory modeling with conditional guidance, generating coherent and controllable trajectories in long-horizon sparse-reward settings.