A Subgoal-driven Framework for Improving Long-Horizon LLM Agents
作者: Taiyi Wang, Sian Gooding, Florian Hartmann, Oriana Riva, Edward Grefenstette
分类: cs.AI, cs.LG, cs.MA
发布日期: 2026-03-20
备注: 50 pages, 15 figures
💡 一句话要点
提出子目标驱动框架,提升LLM Agent在长程任务中的性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM Agent 长程规划 子目标分解 强化学习 里程碑奖励 Web导航 自主决策
📋 核心要点
- 现有LLM Agent在Web导航等长程任务中,面临在线执行时易迷失方向和强化学习训练时奖励稀疏的挑战。
- 论文提出子目标分解的在线规划框架和基于里程碑奖励的强化学习训练框架MiRA,以解决长程任务中的规划和训练问题。
- 实验表明,该方法显著提升了Agent在WebArena-Lite上的成功率,Gemma3-12B模型性能超越了GPT-4-Turbo等专有模型。
📝 摘要(中文)
本文提出了一种用于提升基于大型语言模型(LLM)的Agent在数字环境中(如移动界面、操作系统和Web浏览器)性能的框架。Web导航等任务需要处理动态内容和长序列动作,对Agent提出了挑战。现有的LLM Agent在长程规划中存在两个主要问题:在线执行时易丢失信息,缺乏明确的自适应路径;强化学习(RL)微调时,稀疏和延迟的奖励难以让Agent识别成功动作。为此,本文提出了两点贡献:一是利用专有模型进行在线规划的子目标分解Agent框架;二是MiRA(Milestoning your Reinforcement Learning Enhanced Agent),一种使用密集、基于里程碑的奖励信号的RL训练框架。实时规划机制使Gemini等专有模型的成功率在WebArena-Lite基准上提高了约10%。将MiRA应用于开源Gemma3-12B模型,其成功率从6.4%提高到43.0%,超过了GPT-4-Turbo (17.6%)、GPT-4o (13.9%)以及之前的最佳开源模型WebRL (38.4%)。研究结果表明,结合显式推理时规划和基于里程碑的奖励可以显著提高Agent的长程能力。
🔬 方法详解
问题定义:论文旨在解决LLM Agent在长程任务中表现不佳的问题,尤其是在Web导航等需要处理动态内容和长序列动作的任务中。现有方法的痛点在于,Agent容易在执行过程中迷失方向,并且由于奖励信号稀疏,难以进行有效的强化学习训练。
核心思路:论文的核心思路是引入子目标分解和里程碑奖励。子目标分解将长程任务分解为一系列更小的、可管理的子目标,帮助Agent保持清晰的规划路径。里程碑奖励则为Agent提供更密集、更及时的反馈,加速强化学习过程,并引导Agent学习更有效的策略。
技术框架:整体框架包含两个主要部分:在线规划和离线训练。在线规划阶段,Agent利用子目标分解模块将当前任务分解为一系列子目标,并根据当前环境状态选择合适的动作。离线训练阶段,Agent使用MiRA框架进行强化学习,MiRA框架通过设置里程碑并给予相应的奖励,引导Agent学习完成子目标和最终目标。
关键创新:最重要的技术创新点在于结合了子目标驱动的在线规划和里程碑奖励的强化学习训练。这种结合使得Agent既能进行有效的长程规划,又能通过密集的奖励信号进行高效的策略学习。与现有方法相比,该方法能够更好地应对长程任务中的挑战,并取得更好的性能。
关键设计:子目标分解模块使用专有模型进行子目标生成和选择。MiRA框架的关键设计在于里程碑的设置和奖励函数的定义。里程碑需要能够有效地反映任务的进展,奖励函数需要能够引导Agent朝着里程碑前进。具体的参数设置和网络结构取决于具体的任务和Agent模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法显著提升了LLM Agent在WebArena-Lite基准上的性能。使用实时规划机制,Gemini等专有模型的成功率提高了约10%。将MiRA应用于开源Gemma3-12B模型,其成功率从6.4%提高到43.0%,超越了GPT-4-Turbo (17.6%)、GPT-4o (13.9%)以及之前的最佳开源模型WebRL (38.4%)。
🎯 应用场景
该研究成果可应用于各种需要自主决策和长程规划的场景,例如:自动化Web浏览、智能助手、机器人导航、游戏AI等。通过提升Agent在复杂环境中的决策能力,可以实现更智能、更高效的自动化系统,从而提高生产效率和服务质量,并降低人工成本。
📄 摘要(原文)
Large language model (LLM)-based agents have emerged as powerful autonomous controllers for digital environments, including mobile interfaces, operating systems, and web browsers. Web navigation, for example, requires handling dynamic content and long sequences of actions, making it particularly challenging. Existing LLM-based agents struggle with long-horizon planning in two main ways. During online execution, they often lose track as new information arrives, lacking a clear and adaptive path toward the final goal. This issue is further exacerbated during reinforcement learning (RL) fine-tuning, where sparse and delayed rewards make it difficult for agents to identify which actions lead to success, preventing them from maintaining coherent reasoning over extended tasks. To address these challenges, we propose two contributions. First, we introduce an agent framework that leverages proprietary models for online planning through subgoal decomposition. Second, we present MiRA (Milestoning your Reinforcement Learning Enhanced Agent), an RL training framework that uses dense, milestone-based reward signals. The real-time planning mechanism improves proprietary models such as Gemini by approximately a 10% absolute increase in success rate (SR) on the WebArena-Lite benchmark. Meanwhile, applying MiRA to the open Gemma3-12B model increases its success rate from 6.4% to 43.0%. This performance surpasses proprietary systems such as GPT-4-Turbo (17.6%) and GPT-4o (13.9%), as well as the previous open-model state of the art, WebRL (38.4%). Overall, our findings demonstrate that combining explicit inference-time planning with milestone-based rewards significantly improves an agent's long-horizon capabilities, paving the way for more robust and general-purpose autonomous systems.