Milestone-Guided Policy Learning for Long-Horizon Language Agents
作者: Zixuan Wang, Yuchen Yan, Hongxing Li, Teng Pan, Dingming Li, Ruiqing Zhang, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
分类: cs.CL, cs.AI
发布日期: 2026-05-07
🔗 代码/项目: GITHUB
💡 一句话要点
提出里程碑引导的策略学习框架BEACON,解决长程语言智能体训练中的信用分配与样本效率难题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 语言智能体 强化学习 信用分配 长程决策 奖励塑造 样本效率
📋 核心要点
- 长程语言智能体训练面临信用分配偏差和样本利用率低的问题,导致早期正确决策被错误惩罚。
- BEACON框架通过里程碑边界划分轨迹,结合片段内奖励塑造与双尺度优势估计,实现精准的信用分配。
- 实验证明BEACON在ALFWorld等基准测试中大幅提升了成功率与样本效率,验证了里程碑锚定范式的有效性。
📝 摘要(中文)
长程任务要求语言智能体执行数十步连续决策,但利用强化学习训练此类智能体仍面临巨大挑战。本文指出两个根本原因:一是信用分配错误(Credit Misattribution),即早期的正确动作因最终任务失败而受到惩罚;二是样本效率低下(Sample Inefficiency),即稀缺的成功轨迹导致学习信号几乎完全丧失。为此,我们引入了里程碑引导的策略学习框架BEACON。BEACON利用长程任务的组合结构,通过里程碑边界划分轨迹,在片段内应用时间奖励塑造以评估部分进展,并进行双尺度优势估计,防止远端失败干扰局部动作评估。在ALFWorld、WebShop和ScienceWorld上的实验表明,BEACON显著优于GRPO和GiGPO。特别是在长程ALFWorld任务中,BEACON成功率达到92.9%,远超GRPO的53.5%,并将有效样本利用率从23.7%提升至82.0%。
🔬 方法详解
问题定义:论文旨在解决长程决策任务中强化学习的训练瓶颈。现有方法在面对长序列时,由于奖励信号往往仅在任务终点给出,导致早期正确的动作序列被最终的失败掩盖(信用分配错误),且由于成功轨迹稀疏,模型难以从失败轨迹中提取有效梯度(样本效率低下)。
核心思路:引入“里程碑(Milestone)”概念,将长程任务分解为多个可度量的子目标。通过在里程碑处切分轨迹,将全局任务转化为一系列局部子任务,从而在更细粒度上进行奖励分配和策略优化。
技术框架:BEACON框架包含轨迹切分模块、片段内奖励塑造模块以及双尺度优势估计器。它在训练过程中识别任务的中间状态作为里程碑,对每个片段计算局部奖励,并结合全局奖励进行联合优化。
关键创新:核心创新在于“里程碑锚定(Milestone-anchored)”的信用分配机制。与传统端到端强化学习不同,它通过显式地利用任务的组合结构,将远端奖励信号解耦,有效缓解了长程依赖带来的梯度消失与噪声干扰。
关键设计:采用双尺度优势估计(Dual-scale Advantage Estimation),分别计算局部片段内的优势函数与全局任务的优势函数。这种设计确保了局部动作的评估既能反映对当前子目标的贡献,又能兼顾最终任务的完成情况,从而实现更稳定的策略更新。
🖼️ 关键图片
📊 实验亮点
BEACON在长程ALFWorld任务中表现卓越,成功率从GRPO的53.5%跃升至92.9%,实现了近乎翻倍的性能提升。此外,该方法将有效样本利用率从23.7%大幅提高至82.0%,证明了其在处理稀疏奖励环境下的强大鲁棒性与数据效率,显著优于现有的GRPO与GiGPO基线模型。
🎯 应用场景
该研究适用于需要复杂逻辑推理与多步操作的智能体系统,如自动化办公助手、复杂网页交互机器人以及科学实验自动化平台。通过提升长程任务的训练效率,BEACON能够显著降低开发高性能智能体的算力成本,推动通用人工智能在复杂现实场景中的落地应用。
📄 摘要(原文)
While long-horizon agentic tasks require language agents to perform dozens of sequential decisions, training such agents with reinforcement learning remains challenging. We identify two root causes: credit misattribution, where correct early actions are penalized due to terminal failures, and sample inefficiency, where scarce successful trajectories result in near-total loss of learning signal. We introduce a milestone-guided policy learning framework, BEACON, that leverages the compositional structure of long-horizon tasks to ensure precise credit assignment. BEACON partitions trajectories at milestone boundaries, applies temporal reward shaping within segments to credit partial progress, and estimates advantages at dual scales to prevent distant failures from corrupting the evaluation of local actions. On ALFWorld, WebShop, and ScienceWorld, BEACON consistently outperforms GRPO and GiGPO. Notably, on long-horizon ALFWorld tasks, BEACON achieves 92.9% success rate, nearly doubling GRPO's 53.5%, while improving effective sample utilization from 23.7% to 82.0%. These results establish milestone-anchored credit assignment as an effective paradigm for training long-horizon language agents. Code is available at https://github.com/ZJU-REAL/BEACON.