StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction

📄 arXiv: 2605.06642v1 📥 PDF

作者: Xiangyuan Xue, Yifan Zhou, Zidong Wang, Shengji Tang, Philip Torr, Wanli Ouyang, Lei Bai, Zhenfei Yin

分类: cs.CL, cs.AI

发布日期: 2026-05-07

备注: 26 pages, 4 figures, 7 tables


💡 一句话要点

StraTA:通过策略轨迹抽象激励Agentic强化学习,提升长程决策能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Agentic强化学习 长程决策 策略抽象 轨迹规划 分层强化学习

📋 核心要点

  1. 现有Agentic强化学习方法在长程决策中表现不足,主要原因是其反应式特性限制了探索和信用分配。
  2. StraTA通过引入显式的轨迹级策略,从初始状态采样策略,并以此指导后续动作,从而提升决策能力。
  3. 实验表明,StraTA在ALFWorld、WebShop和SciWorld等任务中,显著提高了样本效率和最终性能,超越了现有基线。

📝 摘要(中文)

大型语言模型(LLMs)越来越多地被用作交互式智能体,但优化它们以进行长程决策仍然很困难,因为当前的方法在很大程度上是纯粹反应式的,这削弱了在扩展轨迹上的探索和信用分配。本文提出了一种策略轨迹抽象(StraTA)的简单框架,该框架将显式的轨迹级策略引入到agentic强化学习(RL)中。StraTA从初始任务状态中采样一个紧凑的策略,将后续动作建立在该策略的基础上,并通过分层GRPO风格的rollout设计联合训练策略生成和动作执行,并通过多样化的策略rollout和关键的自我判断进一步增强。在ALFWorld、WebShop和SciWorld上的实验表明,StraTA在样本效率和最终性能方面始终优于强大的基线。StraTA在ALFWorld上达到了93.1%的成功率,在WebShop上达到了84.2%的成功率。在SciWorld上,StraTA获得了63.5%的总分,优于前沿的闭源模型。

🔬 方法详解

问题定义:现有Agentic强化学习方法在处理长程决策任务时,由于其反应式特性,难以有效地进行探索和信用分配。这意味着智能体难以规划长期目标,并且难以将最终结果的功劳或过失追溯到早期步骤,导致学习效率低下。

核心思路:StraTA的核心思路是在智能体的决策过程中引入一个显式的轨迹级策略。该策略在初始状态被采样,并作为后续动作的指导。通过将动作与策略相关联,StraTA能够更好地进行长期规划和信用分配。这种策略抽象允许智能体在更高的层次上思考问题,从而提高决策效率和效果。

技术框架:StraTA采用分层GRPO风格的rollout设计。整体框架包含两个主要模块:策略生成器和动作执行器。策略生成器负责从初始状态采样一个紧凑的策略,该策略可以被视为对未来行动的抽象规划。动作执行器则根据当前状态和策略生成具体的动作。这两个模块通过联合训练进行优化,使得策略能够有效地指导动作的执行,从而实现更好的长程决策。此外,框架还包括多样化的策略rollout和关键的自我判断机制,以进一步提高学习效率和鲁棒性。

关键创新:StraTA最重要的技术创新在于引入了显式的轨迹级策略。与传统的反应式方法不同,StraTA允许智能体在决策过程中考虑长期目标和规划。这种策略抽象使得智能体能够更好地进行探索和信用分配,从而提高学习效率和最终性能。此外,分层GRPO风格的rollout设计和多样化的策略rollout也为智能体的学习提供了更丰富的经验。

关键设计:StraTA的关键设计包括策略生成器的网络结构、动作执行器的网络结构、损失函数的设计以及多样化策略rollout的实现方式。策略生成器可以使用Transformer或其他序列模型来生成策略。动作执行器可以使用强化学习算法,如PPO或DQN,来根据当前状态和策略选择动作。损失函数需要同时考虑策略的有效性和动作的正确性。多样化策略rollout可以通过探索不同的策略空间来实现,例如使用不同的采样方法或添加噪声。

📊 实验亮点

StraTA在ALFWorld、WebShop和SciWorld等多个任务上取得了显著的性能提升。在ALFWorld上,StraTA达到了93.1%的成功率,在WebShop上达到了84.2%的成功率。在SciWorld上,StraTA获得了63.5%的总分,超过了现有最先进的闭源模型。这些结果表明,StraTA能够有效地提高智能体在长程决策任务中的性能。

🎯 应用场景

StraTA具有广泛的应用前景,可应用于各种需要长程决策的场景,例如机器人导航、游戏AI、任务规划和自动驾驶。通过引入策略抽象,StraTA能够提高智能体在复杂环境中的决策能力,使其能够更好地完成各种任务。此外,StraTA还可以应用于教育领域,帮助学生学习如何进行长期规划和决策。

📄 摘要(原文)

Large language models (LLMs) are increasingly used as interactive agents, but optimizing them for long-horizon decision making remains difficult because current methods are largely purely reactive, which weakens both exploration and credit assignment over extended trajectories. In this work, we present Strategic Trajectory Abstraction (StraTA), a simple framework that introduces an explicit trajectory-level strategy into agentic reinforcement learning (RL). StraTA samples a compact strategy from the initial task state, conditions subsequent actions on that strategy, and trains strategy generation and action execution jointly with a hierarchical GRPO-style rollout design, further enhanced by diverse strategy rollout and critical self-judgment. Experiments on ALFWorld, WebShop, and SciWorld show that StraTA consistently improves both sample efficiency and final performance over strong baselines. StraTA reaches success rates of 93.1% on ALFWorld and 84.2% on WebShop. On SciWorld, StraTA attains a 63.5% overall score, outperforming frontier closed-source models.