Hierarchy-of-Groups Policy Optimization for Long-Horizon Agentic Tasks
作者: Shuo He, Lang Feng, Qi Wei, Xin Cheng, Lei Feng, Bo An
分类: cs.LG, cs.AI
发布日期: 2026-02-26
备注: Accepted at ICLR 2026
🔗 代码/项目: GITHUB
💡 一句话要点
提出层级分组策略优化(HGPO)以解决长时程Agent任务中的上下文不一致问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 长时程任务 策略优化 分组策略 上下文一致性
📋 核心要点
- 现有逐步分组策略优化方法在长时程Agent任务中存在上下文不一致问题,导致优势估计偏差,影响策略优化。
- HGPO将每个步骤分配到多个层级组中,根据历史上下文一致性计算优势,并自适应加权聚合,平衡偏差与方差。
- 实验表明,HGPO在ALFWorld和WebShop任务上,使用Qwen2.5模型,显著优于现有Agent强化学习方法。
📝 摘要(中文)
本文针对长时程Agent任务,提出了一种层级分组策略优化(HGPO)方法。现有基于分组的强化学习方法,如GRPO,在长时程任务中表现出潜力。然而,逐步分组策略优化在估计逐步相对优势时存在上下文不一致问题,导致优势估计偏差,进而影响策略优化。HGPO通过将每个步骤根据历史上下文的一致性分配到多个层级组中,并在每个组内计算不同的优势,然后使用自适应加权方案聚合这些优势。这种方法在逐步优势估计中实现了偏差-方差的良好平衡,无需额外的模型或rollout。在ALFWorld和WebShop两个具有挑战性的Agent任务上,使用Qwen2.5-1.5B-Instruct和Qwen2.5-7B-Instruct的评估表明,HGPO在相同的计算约束下显著优于现有的Agent强化学习方法。
🔬 方法详解
问题定义:论文旨在解决长时程Agent任务中,使用逐步分组策略优化时出现的上下文不一致问题。现有方法在估计每一步的相对优势时,没有充分考虑历史上下文的差异,导致同一组内的不同步骤可能具有不同的历史背景,从而产生有偏的优势估计。这种偏差会严重影响策略优化,降低Agent的学习效率和最终性能。
核心思路:HGPO的核心思路是利用层级分组的方式,将具有相似历史上下文的步骤划分到同一组中,从而减少上下文不一致性。通过在不同的层级组内分别计算优势,并使用自适应加权策略将这些优势进行聚合,可以更准确地估计每一步的相对优势,从而改善策略优化效果。这种方法旨在在偏差和方差之间取得平衡,避免过度拟合或欠拟合。
技术框架:HGPO的整体框架包括以下几个主要步骤:1) Rollout:使用当前策略生成一组轨迹数据。2) 分组:将轨迹中的每一步分配到多个层级组中,分组依据是历史上下文的一致性。3) 优势估计:在每个层级组内,分别计算每一步的优势。4) 优势聚合:使用自适应加权策略,将不同层级组内的优势进行聚合,得到最终的优势估计。5) 策略更新:使用聚合后的优势估计,更新Agent的策略。
关键创新:HGPO的关键创新在于引入了层级分组的概念,并设计了自适应加权策略。与传统的单一分组方法相比,层级分组可以更精细地捕捉历史上下文的差异,从而减少上下文不一致性。自适应加权策略则可以根据不同层级组的可靠性,动态调整其在优势聚合中的权重,从而提高优势估计的准确性。
关键设计:HGPO的关键设计包括:1) 层级分组的划分标准:论文可能采用某种相似度度量来衡量历史上下文的一致性,并根据相似度将步骤划分到不同的层级组中。2) 自适应加权策略:论文可能使用某种基于方差或置信度的指标来确定每个层级组的权重。3) 优势估计方法:在每个层级组内,可以使用标准的优势估计方法,如GAE或TD(λ)。具体的网络结构和损失函数取决于所使用的Agent模型和强化学习算法。
🖼️ 关键图片
📊 实验亮点
实验结果表明,HGPO在ALFWorld和WebShop两个具有挑战性的Agent任务上,显著优于现有的Agent强化学习方法。具体而言,使用Qwen2.5-1.5B-Instruct和Qwen2.5-7B-Instruct模型,HGPO在相同的计算约束下,能够取得更高的任务完成率和更低的失败率。这些结果验证了HGPO在解决长时程Agent任务中的有效性。
🎯 应用场景
HGPO方法具有广泛的应用前景,可以应用于各种需要长时程决策的Agent任务,例如机器人导航、游戏AI、对话系统、自动驾驶等。该方法能够提高Agent在复杂环境中的学习效率和最终性能,使其能够更好地完成各种任务。此外,HGPO还可以应用于其他需要进行分组策略优化的场景,例如多Agent强化学习等。
📄 摘要(原文)
Group-based reinforcement learning (RL), such as GRPO, has advanced the capabilities of large language models on long-horizon agentic tasks. To enable more fine-grained policy updates, recent research has increasingly shifted toward stepwise group-based policy optimization, which treats each step in a rollout trajectory independently while using a memory module to retain historical context. However, we find a key issue in estimating stepwise relative advantages, namely context inconsistency, where steps within the same group may differ in their historical contexts. Empirically, we reveal that this issue can lead to severely biased advantage estimation, thereby degrading policy optimization significantly. To address the issue, in this paper, we propose Hierarchy-of-Groups Policy Optimization (HGPO) for long-horizon agentic tasks. Specifically, within a group of rollout trajectories, HGPO assigns each step to multiple hierarchical groups according to the consistency of historical contexts. Then, for each step, HGPO computes distinct advantages within each group and aggregates them with an adaptive weighting scheme. In this way, HGPO can achieve a favorable bias-variance trade-off in stepwise advantage estimation, without extra models or rollouts. Evaluations on two challenging agentic tasks, ALFWorld and WebShop with Qwen2.5-1.5B-Instruct and Qwen2.5-7B-Instruct, show that HGPO significantly outperforms existing agentic RL methods under the same computational constraints. Code is available at https://github.com/langfengQ/verl-agent/tree/master/recipe/hgpo.