StepPO: Step-Aligned Policy Optimization for Agentic Reinforcement Learning

作者: Daoyu Wang, Qingchuan Li, Mingyue Cheng, Jie Ouyang, Shuo Yu, Qi Liu, Enhong Chen

分类: cs.CL

发布日期: 2026-04-20

💡 一句话要点

StepPO：面向Agentic强化学习的步对齐策略优化方法

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Agentic强化学习 大型语言模型 策略优化 步级别建模 信用分配 多轮交互 通用智能体

📋 核心要点

传统LLM强化学习以token为中心，难以有效捕捉智能体在多轮交互中的决策行为，导致奖励稀疏和优化困难。
StepPO提出步级别的Agentic RL，将智能体的动作表示从token级别提升到步级别，并进行步级别的信用分配。
初步实验表明，StepPO能够更好地对齐策略优化和奖励传播，为提升LLM的通用智能体能力提供了有效途径。

📝 摘要（中文）

通用智能体催生了OpenClaw和Claude Code等现象级应用。随着这些智能体系统（又称Harnesses）追求更宏伟的目标，它们对基础大型语言模型（LLMs）提出了越来越高的智能体能力要求。Agentic强化学习（RL）正成为一种关键的后训练范式，旨在赋予LLMs这些能力，并在智能体训练中发挥着越来越关键的作用。与RLHF和RLVR中单轮token级别的对齐或推理增强不同，Agentic RL针对多轮交互式环境，其目标是优化核心智能体能力，如决策和工具使用，同时解决延迟和稀疏奖励以及长且可变上下文等新挑战。因此，从传统LLM RL继承的以token为中心的建模和优化范式越来越难以捕捉真实的LLM智能体行为。在本文中，我们提出了StepPO，作为步级别Agentic RL的立场。我们认为，传统的token级别马尔可夫决策过程（MDP）应该提升为步级别MDP公式，并且步，而不是token，应该被视为LLM智能体的适当动作表示。然后，我们提出步级别信用分配作为该公式的自然优化对应物，从而使策略优化和奖励传播与智能体决策的粒度对齐。最后，我们讨论了在实践中实现步级别Agentic RL所需的关键系统设计，初步实验为这种观点的有效性提供了初步证据。我们希望StepPO中体现的步对齐、步级别范式为Agentic RL社区提供一个有用的视角来理解智能体行为，并帮助LLMs朝着更强大的通用智能体能力发展。

🔬 方法详解

问题定义：现有Agentic强化学习方法主要沿用token级别的建模和优化范式，无法有效处理多轮交互环境中智能体的决策过程。这种token中心的方法忽略了智能体行为的整体性，导致奖励信号稀疏、信用分配困难，最终影响智能体能力的提升。

核心思路：StepPO的核心思路是将Agentic强化学习的粒度从token级别提升到step级别。这意味着将智能体的动作视为一个完整的步骤，而不是单个token的序列。通过这种方式，可以更好地捕捉智能体的决策意图，并进行更有效的信用分配。

技术框架：StepPO的技术框架主要包括以下几个关键部分：首先，将传统的token级别MDP重新定义为step级别MDP。其次，设计步级别的奖励函数，用于评估每个步骤的质量。第三，采用步级别的策略优化算法，例如基于近端策略优化（PPO）的变体，以更新智能体的策略。整体流程是智能体在环境中执行步级别的动作，接收环境的反馈和奖励，然后使用策略优化算法更新策略，从而不断提升智能体的决策能力。

关键创新：StepPO最重要的技术创新在于提出了步级别的建模和优化范式。与传统的token级别方法相比，StepPO能够更好地对齐策略优化和奖励传播的粒度，从而更有效地训练智能体。这种步级别的视角能够更好地捕捉智能体的决策意图，并进行更有效的信用分配，解决奖励稀疏的问题。

关键设计：StepPO的关键设计包括：1) 步级别MDP的定义，明确了状态、动作和奖励的表示方式；2) 步级别奖励函数的选择，需要根据具体的任务进行设计，以准确评估每个步骤的质量；3) 策略优化算法的调整，需要适应步级别的动作空间，并进行相应的参数调整。

🖼️ 关键图片

📊 实验亮点

论文通过初步实验验证了StepPO的有效性。实验结果表明，与传统的token级别方法相比，StepPO能够更好地训练智能体，提升其在多轮交互任务中的性能。虽然具体的性能数据和对比基线未在摘要中明确给出，但实验结果为StepPO的步级别建模和优化范式提供了初步的证据支持。

🎯 应用场景

StepPO有望应用于各种需要多轮交互的智能体任务，例如代码生成、工具使用、对话系统等。通过提升LLM在这些任务中的决策能力，可以构建更智能、更自主的通用智能体，从而在自动化、人机协作等领域发挥重要作用。该研究为Agentic强化学习提供了一种新的视角，有助于推动LLM朝着更强大的通用智能体能力发展。

📄 摘要（原文）

General agents have given rise to phenomenal applications such as OpenClaw and Claude Code. As these agent systems (a.k.a. Harnesses) strive for bolder goals, they demand increasingly stronger agentic capabilities from foundation Large Language Models (LLMs). Agentic Reinforcement Learning (RL) is emerging as a central post-training paradigm for empowering LLMs with these capabilities and is playing an increasingly pivotal role in agent training. Unlike single-turn token-level alignment or reasoning enhancement, as in RLHF and RLVR, Agentic RL targets multi-turn interactive settings, where the goal is to optimize core agentic capabilities such as decision making and tool use while addressing new challenges including delayed and sparse rewards, as well as long and variable context. As a result, the token-centric modeling and optimization paradigm inherited from traditional LLM RL is becoming increasingly inadequate for capturing real LLM agent behavior. In this paper, we present StepPO as a position on step-level Agentic RL. We argue that the conventional token-level Markov Decision Process (MDP) should be advanced to a step-level MDP formulation, and that the step, rather than the token, should be regarded as the proper action representation for LLM agents. We then propose step-level credit assignment as the natural optimization counterpart of this formulation, thereby aligning policy optimization and reward propagation with the granularity of agent decisions. Finally, we discuss the key systems designs required to realize step-level Agentic RL in practice and preliminary experiments provide initial evidence for the effectiveness of this perspective. We hope that the step-aligned, step-level paradigm embodied in StepPO offers the Agentic RL community a useful lens for understanding agent behavior and helps advance LLMs toward stronger general-agent capabilities.

StepPO: Step-Aligned Policy Optimization for Agentic Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理