Hierarchical Reinforcement Learning with Augmented Step-Level Transitions for LLM Agents

📄 arXiv: 2604.05808v1 📥 PDF

作者: Shuai Zhen, Yanhua Yu, Ruopei Guo, Nan Cheng, Yang Deng

分类: cs.AI, cs.LG

发布日期: 2026-04-07

备注: Accepted to ACL 2026 Main Conference

🔗 代码/项目: GITHUB


💡 一句话要点

STEP-HRL:增强步级转移的分层强化学习LLM Agent框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 分层强化学习 大型语言模型 智能Agent 交互式决策 局部进度

📋 核心要点

  1. 现有LLM Agent依赖过长的交互历史,导致计算成本高、扩展性差,难以应对复杂任务。
  2. STEP-HRL通过分层强化学习,利用子任务完成情况和局部进度总结,实现基于单步转移的步级学习。
  3. 实验表明,STEP-HRL在ScienceWorld和ALFWorld上显著优于基线,提升性能和泛化能力,并减少token使用。

📝 摘要(中文)

大型语言模型(LLM)Agent在复杂的交互式决策任务中表现出强大的能力。然而,现有的LLM Agent通常依赖于越来越长的交互历史,导致计算成本高昂和可扩展性有限。本文提出了STEP-HRL,一种分层强化学习(HRL)框架,它通过仅以单步转移而非完整交互历史为条件来实现步级学习。STEP-HRL以分层方式构建任务,使用已完成的子任务来表示整体任务的全局进度。通过引入局部进度模块,它还迭代地、选择性地总结每个子任务内的交互历史,以产生局部进度的紧凑摘要。这些组件共同为高级和低级策略产生增强的步级转移。在ScienceWorld和ALFWorld基准测试上的实验结果一致表明,STEP-HRL在性能和泛化方面均显著优于基线,同时减少了token使用量。代码可在https://github.com/TonyStark042/STEP-HRL 获取。

🔬 方法详解

问题定义:现有LLM Agent在复杂交互式决策任务中面临计算成本高昂和可扩展性有限的问题。它们通常需要依赖越来越长的交互历史来进行决策,这导致了巨大的计算负担,并且难以泛化到更复杂的场景中。因此,如何降低LLM Agent对交互历史的依赖,提高其效率和泛化能力,是一个亟待解决的问题。

核心思路:STEP-HRL的核心思路是利用分层强化学习(HRL)的思想,将复杂的任务分解为多个子任务,并引入局部进度模块来迭代地总结每个子任务内的交互历史。通过这种方式,Agent可以仅依赖于单步转移而非完整的交互历史来进行学习,从而显著降低计算成本并提高可扩展性。

技术框架:STEP-HRL框架包含两个主要层次:高级策略和低级策略。高级策略负责选择要执行的子任务,而低级策略负责执行选定的子任务。此外,框架还包含一个局部进度模块,用于迭代地总结每个子任务内的交互历史,并生成一个紧凑的局部进度表示。这个局部进度表示与单步转移一起,作为高级和低级策略的输入。整体流程是:Agent首先根据当前状态和局部进度选择一个子任务,然后执行该子任务,并更新局部进度。这个过程不断重复,直到完成整个任务。

关键创新:STEP-HRL的关键创新在于引入了局部进度模块,该模块能够迭代地、选择性地总结每个子任务内的交互历史,并生成一个紧凑的局部进度表示。与现有方法相比,STEP-HRL不再需要依赖完整的交互历史来进行决策,而是可以仅依赖于单步转移和局部进度表示,从而显著降低了计算成本和提高了可扩展性。

关键设计:局部进度模块的具体实现方式未知,论文中可能没有详细描述其网络结构和损失函数。但是,可以推测,该模块可能采用某种循环神经网络(RNN)或Transformer结构,以便能够处理变长的交互历史。损失函数的设计可能涉及到最大化局部进度表示与实际任务进度之间的相关性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

STEP-HRL在ScienceWorld和ALFWorld基准测试上取得了显著的性能提升。实验结果表明,STEP-HRL在性能和泛化方面均优于基线方法,同时减少了token使用量。具体的性能数据和提升幅度在论文中给出,表明STEP-HRL是一种有效的LLM Agent优化方法。

🎯 应用场景

STEP-HRL具有广泛的应用前景,可以应用于各种需要复杂交互式决策的任务中,例如游戏AI、机器人控制、智能助手等。通过降低LLM Agent对交互历史的依赖,STEP-HRL可以提高其效率和可扩展性,使其能够更好地应对复杂的现实世界场景。此外,STEP-HRL还可以促进LLM Agent的泛化能力,使其能够更好地适应新的任务和环境。

📄 摘要(原文)

Large language model (LLM) agents have demonstrated strong capabilities in complex interactive decision-making tasks. However, existing LLM agents typically rely on increasingly long interaction histories, resulting in high computational cost and limited scalability. In this paper, we propose STEP-HRL, a hierarchical reinforcement learning (HRL) framework that enables step-level learning by conditioning only on single-step transitions rather than full interaction histories. STEP-HRL structures tasks hierarchically, using completed subtasks to represent global progress of overall task. By introducing a local progress module, it also iteratively and selectively summarizes interaction history within each subtask to produce a compact summary of local progress. Together, these components yield augmented step-level transitions for both high-level and low-level policies. Experimental results on ScienceWorld and ALFWorld benchmarks consistently demonstrate that STEP-HRL substantially outperforms baselines in terms of performance and generalization while reducing token usage. Our code is available at https://github.com/TonyStark042/STEP-HRL.