Hierarchy-of-Groups Policy Optimization for Long-Horizon Agentic Tasks

📄 arXiv: 2602.22817 📥 PDF

作者: Shuo He, Lang Feng, Qi Wei, Xin Cheng, Lei Feng, Bo An

分类: cs.LG, cs.AI

发布日期: 2026-02-28


💡 一句话要点

提出层级群组策略优化(HGPO)以解决长时程Agent任务中的上下文不一致问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 长时程任务 策略优化 优势估计 上下文一致性

📋 核心要点

  1. 现有基于群组的强化学习方法在长时程任务中存在上下文不一致问题,导致优势估计偏差。
  2. HGPO通过将每一步骤分配到多个层级群组,并自适应加权聚合各群组内的优势估计,实现偏差-方差权衡。
  3. 在ALFWorld和WebShop任务上的实验表明,HGPO在相同计算资源下显著优于现有方法。

📝 摘要(中文)

本文针对长时程Agent任务中基于群组的强化学习方法,如GRPO,在逐步策略优化中存在的上下文不一致问题进行了研究。研究发现,在估计逐步相对优势时,同一群组内的步骤可能由于历史上下文的差异而导致优势估计出现严重偏差,从而显著降低策略优化效果。为了解决这个问题,本文提出了层级群组策略优化(HGPO)。HGPO根据历史上下文的一致性,将每个步骤分配到多个层级群组中,并在每个群组内计算不同的优势,然后使用自适应加权方案对这些优势进行聚合。这种方法可以在逐步优势估计中实现有利的偏差-方差权衡,而无需额外的模型或rollout。在ALFWorld和WebShop两个具有挑战性的Agent任务上,使用Qwen2.5-1.5B-Instruct和Qwen2.5-7B-Instruct的评估表明,在相同的计算约束下,HGPO显著优于现有的Agent强化学习方法。

🔬 方法详解

问题定义:论文旨在解决长时程Agent任务中,基于群组的强化学习方法在进行逐步策略优化时,由于历史上下文不一致导致的优势估计偏差问题。现有方法在估计每一步的相对优势时,忽略了同一群组内的不同步骤可能具有不同的历史上下文,这会导致优势估计出现偏差,进而影响策略优化效果。

核心思路:论文的核心思路是构建一个层级的群组结构,根据历史上下文的一致性将每一步骤分配到多个群组中。通过在不同的群组内计算优势,并使用自适应的权重对这些优势进行聚合,从而在偏差和方差之间取得平衡。这种方法旨在更准确地估计每一步的优势,从而提高策略优化的效果。

技术框架:HGPO的整体框架包括以下几个主要步骤:1) rollout生成轨迹数据;2) 根据历史上下文将每一步骤分配到多个层级群组中;3) 在每个群组内计算该步骤的优势;4) 使用自适应加权方案对不同群组的优势进行聚合;5) 使用聚合后的优势进行策略更新。该框架的关键在于层级群组的构建和自适应加权方案的设计。

关键创新:HGPO最关键的创新在于提出了层级群组的概念,并根据历史上下文的一致性进行群组划分。与传统的基于单一群组的优势估计方法相比,HGPO能够更精细地捕捉不同步骤之间的差异,从而更准确地估计优势。此外,自适应加权方案也是一个重要的创新点,它能够根据不同群组的可靠性动态调整权重,进一步提高优势估计的准确性。

关键设计:HGPO的关键设计包括:1) 如何定义历史上下文的一致性,并根据此进行层级群组的划分;2) 如何设计自适应加权方案,以平衡不同群组的偏差和方差;3) 如何有效地计算每个群组内的优势。具体的参数设置、损失函数和网络结构的选择可能取决于具体的任务和模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在ALFWorld和WebShop两个具有挑战性的Agent任务上,HGPO显著优于现有的Agent强化学习方法。具体而言,在使用Qwen2.5-1.5B-Instruct和Qwen2.5-7B-Instruct作为Agent时,HGPO在两个任务上都取得了显著的性能提升,证明了其在长时程Agent任务中的有效性。这些结果表明,HGPO能够有效地解决上下文不一致问题,并提高策略优化的效果。

🎯 应用场景

HGPO具有广泛的应用前景,可应用于各种需要长时程决策的Agent任务,例如机器人导航、游戏AI、对话系统、网页浏览等。通过更准确地估计优势,HGPO可以帮助Agent更快地学习到更有效的策略,从而提高任务完成的效率和质量。该研究对于提升Agent在复杂环境中的决策能力具有重要的实际价值和未来影响。

📄 摘要(原文)

Group-based reinforcement learning (RL), such as GRPO, has advanced the capabilities of large language models on long-horizon agentic tasks. To enable more fine-grained policy updates, recent research has increasingly shifted toward stepwise group-based policy optimization, which treats each step in a rollout trajectory independently while using a memory module to retain historical context. However, we find a key issue in estimating stepwise relative advantages, namely context inconsistency, where steps within the same group may differ in their historical contexts. Empirically, we reveal that this issue can lead to severely biased advantage estimation, thereby degrading policy optimization significantly. To address the issue, in this paper, we propose Hierarchy-of-Groups Policy Optimization (HGPO) for long-horizon agentic tasks. Specifically, within a group of rollout trajectories, HGPO assigns each step to multiple hierarchical groups according to the consistency of historical contexts. Then, for each step, HGPO computes distinct advantages within each group and aggregates them with an adaptive weighting scheme. In this way, HGPO can achieve a favorable bias-variance trade-off in stepwise advantage estimation, without extra models or rollouts. Evaluations on two challenging agentic tasks, ALFWorld and WebShop with Qwen2.5-1.5B-Instruct and Qwen2.5-7B-Instruct, show that HGPO significantly outperforms existing agentic RL methods under the same computational constraints. Code is available atthis https URL.