Beyond Trajectory-Level Attribution: Graph-Based Credit Assignment for Agentic Reinforcement Learning
作者: Xin Cheng, Shuo He, Lang Feng, HaiYang Xu, Ming Yan, Lei Feng, Bo An
分类: cs.LG, cs.AI
发布日期: 2026-05-26
备注: Accepted by ICML 2026
💡 一句话要点
GraphGPO:基于图的信用分配方法,提升Agentic强化学习效率
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 信用分配 图神经网络 Agentic任务 群体策略优化
📋 核心要点
- 现有群体强化学习方法依赖粗粒度轨迹级别归因,无法捕捉单个步骤的贡献,导致信用分配不准确。
- GraphGPO将轨迹聚合为状态转移图,利用全局信息估计状态到目标的距离,实现更精细的步骤级别信用分配。
- 实验表明,GraphGPO显著提高了训练效率,并在多个基准测试中取得了领先的性能。
📝 摘要(中文)
基于群体的强化学习方法在提升大型语言模型(LLMs)性能方面取得了显著成功,并迅速扩展到agentic任务中。然而,它们的信用分配严重依赖于粗粒度的轨迹级别归因,根据最终结果进行判断,难以捕捉单个步骤的贡献,例如失败轨迹中隐藏的有价值步骤。为了揭示潜在信息并实现更真实的步骤级别信用分配,我们提出了基于图的群体策略优化(GraphGPO)。GraphGPO首先将所有rollout轨迹聚合到一个统一的状态转移图中,然后利用图中编码的全局信息估计每个状态到任务目标的距离。最后,GraphGPO通过估计基于图的优势函数,根据转移减少到任务目标距离的程度,为每个边分配信用。通过这种方式,GraphGPO显著提高了训练效率,并在一系列具有挑战性的基准测试中实现了最先进的性能。
🔬 方法详解
问题定义:现有基于群体(Group-based)的强化学习方法在agentic任务中,通常采用轨迹级别的信用分配方式。这种方式的痛点在于,它只能根据最终结果来判断整个轨迹的优劣,而忽略了轨迹中每个步骤的实际贡献。例如,一个最终失败的轨迹中可能包含一些非常有价值的步骤,但由于整体结果不佳,这些步骤的功劳会被掩盖。这导致学习效率低下,难以发现最优策略。
核心思路:GraphGPO的核心思路是将所有rollout的轨迹信息整合到一个统一的状态转移图中。通过构建这个图,算法可以利用全局信息来估计每个状态距离任务目标的远近。然后,算法根据每个状态转移对缩短到目标距离的贡献大小,来分配信用。这样,即使某个步骤出现在失败的轨迹中,只要它对接近目标有帮助,就能获得相应的奖励。
技术框架:GraphGPO的整体框架可以分为三个主要阶段:1) 轨迹聚合:将所有rollout的轨迹数据构建成一个状态转移图,图中节点代表状态,边代表状态转移。2) 距离估计:利用图中的全局信息,估计每个状态到任务目标的距离。这可以通过图算法(如最短路径算法)或者学习一个距离预测器来实现。3) 信用分配:基于估计的距离,计算每个状态转移的优势函数,并根据优势函数的大小来分配信用。优势函数衡量的是该状态转移对缩短到目标距离的贡献。
关键创新:GraphGPO最重要的创新在于它将轨迹级别的信用分配问题转化为了图上的信用分配问题。通过构建状态转移图,算法可以利用全局信息来更准确地评估每个步骤的贡献,从而实现更精细的信用分配。这与传统的轨迹级别信用分配方法有本质区别,后者只能根据最终结果来判断整个轨迹的优劣。
关键设计:GraphGPO的关键设计包括:1) 状态转移图的构建方式:如何有效地将轨迹数据转化为图结构,例如是否需要对状态进行抽象或聚类。2) 距离估计方法:如何利用图中的全局信息来准确地估计状态到目标的距离,例如使用最短路径算法、图神经网络等。3) 优势函数的设计:如何设计一个合适的优势函数,来衡量状态转移对缩短到目标距离的贡献,例如考虑转移前后的距离差、转移的概率等。
🖼️ 关键图片
📊 实验亮点
GraphGPO在一系列具有挑战性的基准测试中取得了state-of-the-art的性能。与传统的轨迹级别信用分配方法相比,GraphGPO显著提高了训练效率,并且能够更快地找到最优策略。具体的性能数据和对比基线在论文中进行了详细的展示,证明了GraphGPO的有效性和优越性。
🎯 应用场景
GraphGPO具有广泛的应用前景,尤其适用于需要精细信用分配的agentic强化学习任务。例如,在机器人控制、游戏AI、自动驾驶等领域,可以利用GraphGPO来更有效地训练智能体,使其能够更好地理解和执行复杂任务。此外,该方法还可以应用于推荐系统、金融交易等领域,以优化决策过程并提高整体性能。
📄 摘要(原文)
Group-based reinforcement learning (RL) methods have achieved remarkable success in improving the performance of large language models (LLMs) and have been rapidly extended to agentic tasks. However, their credit assignment relies heavily on coarse-grained trajectory-level attribution according to final outcomes, making it difficult to capture the contribution of individual steps, such as valuable steps obscured within failed trajectories. To uncover latent information and enable more faithful step-level credit assignment, we propose Graph-based Group Policy Optimization (GraphGPO), which first aggregates all rollout trajectories into a unified state-transition graph and then estimates the distance from each state to the task goal using the global information encoded in the graph. Finally, GraphGPO assigns credit to each edge by estimating a graph-based advantage, based on how much the transition reduces the distance to the task goal. In this way, GraphGPO significantly improves training efficiency and achieves state-of-the-art performance across a range of challenging benchmarks.