Plan-and-Act: Improving Planning of Agents for Long-Horizon Tasks
作者: Lutfi Eren Erdogan, Nicholas Lee, Sehoon Kim, Suhong Moon, Hiroki Furuta, Gopala Anumanchipalli, Kurt Keutzer, Amir Gholami
分类: cs.CL
发布日期: 2025-03-12 (更新: 2025-04-22)
期刊: ICML 2025
💡 一句话要点
提出Plan-and-Act框架,提升LLM智能体在长程任务中的规划能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长程规划 大型语言模型 智能体 合成数据生成 Web导航
📋 核心要点
- 现有LLM智能体在长程任务中面临规划能力不足的挑战,难以生成准确可行的计划。
- Plan-and-Act框架通过显式规划模块和合成数据生成方法,提升LLM智能体的规划能力。
- 实验表明,Plan-and-Act在Web导航任务上取得了显著的性能提升,达到state-of-the-art水平。
📝 摘要(中文)
大型语言模型(LLMs)在使语言智能体处理简单任务方面表现出显著的进步。然而,将它们应用于复杂、多步骤、长程任务仍然是一个挑战。最近的研究发现,将高层规划与低层执行分离可以有效地平衡高层规划目标和低层执行细节。但是,生成准确的计划仍然很困难,因为LLM本身并没有为此任务进行训练。为了解决这个问题,我们提出了Plan-and-Act,这是一个新颖的框架,它将显式规划融入到基于LLM的智能体中,并引入了一种可扩展的方法,通过一种新颖的合成数据生成方法来增强计划生成。Plan-and-Act由一个Planner模型组成,该模型生成结构化的、高层的计划来实现用户目标,以及一个Executor模型,该模型将这些计划转化为特定于环境的动作。为了有效地训练Planner,我们引入了一种合成数据生成方法,该方法使用可行的计划来注释ground-truth轨迹,并使用多样化和广泛的示例来增强泛化能力。我们使用Web导航作为代表性的长程规划环境来评估Plan-and-Act,在WebArena-Lite基准测试中展示了最先进的57.58%的成功率,以及在WebVoyager上最先进的81.36%的纯文本成功率。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)在长程任务中规划能力不足的问题。现有的LLM智能体在处理需要多步骤推理和长期依赖的任务时,难以生成准确和可行的计划,导致任务成功率较低。这是因为LLMs通常没有经过专门的规划训练,并且难以同时兼顾高层目标和底层执行细节。
核心思路:论文的核心思路是将规划过程显式地从执行过程中分离出来,并使用一个专门的Planner模型来生成结构化的、高层的计划。通过这种方式,可以使LLM智能体更好地理解任务目标,并将其分解为一系列可执行的步骤。此外,论文还提出了一种合成数据生成方法,用于训练Planner模型,从而提高其泛化能力。
技术框架:Plan-and-Act框架包含两个主要模块:Planner和Executor。Planner负责生成高层计划,Executor负责将这些计划转化为环境特定的动作。整个流程如下:首先,Planner接收用户目标作为输入,并生成一个结构化的计划。然后,Executor接收Planner生成的计划,并将其转化为一系列动作,与环境进行交互。最后,环境返回状态信息,Executor根据状态信息执行下一个动作,直到任务完成。
关键创新:论文最重要的技术创新点在于提出了一个可扩展的合成数据生成方法,用于训练Planner模型。该方法通过使用可行的计划来注释ground-truth轨迹,并使用多样化和广泛的示例来增强泛化能力。这种方法可以有效地解决LLM在规划任务中缺乏训练数据的问题。
关键设计:合成数据生成方法是关键设计之一。具体来说,该方法首先收集一些成功的任务轨迹,然后使用LLM生成与这些轨迹对应的计划。为了增加数据的多样性,论文还引入了一些数据增强技术,例如随机替换计划中的步骤、添加冗余步骤等。此外,论文还设计了一个损失函数,用于训练Planner模型,该损失函数鼓励Planner生成与ground-truth计划相似的计划。
🖼️ 关键图片
📊 实验亮点
Plan-and-Act在WebArena-Lite基准测试中取得了57.58%的成功率,达到了state-of-the-art水平。此外,在WebVoyager上,Plan-and-Act取得了81.36%的纯文本成功率,也达到了state-of-the-art水平。这些结果表明,Plan-and-Act框架可以有效地提高LLM智能体在长程任务中的规划能力。
🎯 应用场景
Plan-and-Act框架具有广泛的应用前景,可以应用于各种需要长程规划的智能体任务,例如机器人导航、游戏AI、自动化客服等。该研究的实际价值在于提高了LLM智能体在复杂任务中的性能和可靠性,未来可以应用于更广泛的领域,例如智能家居、自动驾驶等。
📄 摘要(原文)
Large language models (LLMs) have shown remarkable advancements in enabling language agents to tackle simple tasks. However, applying them for complex, multi-step, long-horizon tasks remains a challenge. Recent work have found success by separating high-level planning from low-level execution, which enables the model to effectively balance high-level planning objectives and low-level execution details. However, generating accurate plans remains difficult since LLMs are not inherently trained for this task. To address this, we propose Plan-and-Act, a novel framework that incorporates explicit planning into LLM-based agents and introduces a scalable method to enhance plan generation through a novel synthetic data generation method. Plan-and-Act consists of a Planner model which generates structured, high-level plans to achieve user goals, and an Executor model that translates these plans into environment-specific actions. To train the Planner effectively, we introduce a synthetic data generation method that annotates ground-truth trajectories with feasible plans, augmented with diverse and extensive examples to enhance generalization. We evaluate Plan-and-Act using web navigation as a representative long-horizon planning environment, demonstrating a state-of-the-art 57.58% success rate on the WebArena-Lite benchmark as well as a text-only state-of-the-art 81.36% success rate on WebVoyager.