Does The Way You Plan Matter? An Empirical Study of Planning Representations for LLM Web Agents

📄 arXiv: 2605.29927v1 📥 PDF

作者: Alejandra Zambrano, Sara Vera Marjanovic, Imene Kerboua, Xing Han Lù, Leila Kosseim

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-05-28

备注: Extended version of paper submitted to EMNLP, waiting for acceptance


💡 一句话要点

PlanAhead框架评估LLM Web Agent中规划表示的影响,提升任务成功率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM Web Agent 规划表示 PlanAhead框架 任务难度分级 成就率 已解决任务一致性 WebArena 多模态LLM

📋 核心要点

  1. 现有LLM Web Agent在规划方面存在不足,导致探索受限、步骤遗漏和对任务约束敏感。
  2. PlanAhead框架通过静态规划器-执行器结构,系统评估不同规划表示对Agent性能的影响。
  3. 实验表明,规划表示和底层LLM均显著影响Web Agent的鲁棒性和任务成功率。

📝 摘要(中文)

基于LLM的Web Agent在探索、关键步骤遗漏和任务约束敏感性方面仍存在不足。本文提出PlanAhead框架,旨在评估不同自然语言规划表示对Agent性能的影响。首先,自动将WebArena任务分为三个难度级别,实现一致的难度分级。然后,在困难任务上系统评估四种规划表示:顺序子目标、叙述、伪代码和检查表;并测试了OpenAI、Alibaba和Google的多模态LLM Agent。为解决随机性问题,引入了成就率(AR)和已解决任务一致性(STC)两个新指标。结果表明,规划表示和底层LLM都显著影响Web Agent的鲁棒性和任务成功率。

🔬 方法详解

问题定义:现有基于LLM的Web Agent在执行Web任务时,由于规划能力不足,经常出现探索不充分、遗漏关键步骤以及对任务约束过于敏感的问题。现有的研究较少关注不同规划表示形式对Agent性能的影响,缺乏系统性的评估。

核心思路:本文的核心思路是通过设计一个静态的规划器-执行器框架PlanAhead,将规划和执行过程解耦,从而可以独立地评估不同规划表示形式对Agent性能的影响。通过比较不同的规划表示,找到更适合LLM Web Agent的规划方式,从而提升其任务完成能力。

技术框架:PlanAhead框架主要包含以下几个阶段:1) 任务难度分级:自动将WebArena任务分为三个难度级别。2) 规划生成:使用LLM生成四种不同规划表示(顺序子目标、叙述、伪代码、检查表)。3) 任务执行:使用LLM Agent执行生成的规划。4) 性能评估:使用成就率(AR)和已解决任务一致性(STC)两个指标评估Agent的性能。

关键创新:本文的关键创新在于:1) 提出了PlanAhead框架,用于系统评估不同规划表示对LLM Web Agent性能的影响。2) 提出了自动任务难度分级方法,无需人工标注即可对WebArena任务进行难度分级。3) 提出了成就率(AR)和已解决任务一致性(STC)两个新的评估指标,用于更准确地评估Agent的性能。

关键设计:在任务难度分级方面,使用了自动化的方法,具体细节未知。在规划表示方面,选择了四种常见的自然语言表示形式。在评估指标方面,成就率(AR)衡量Agent完成任务的比例,已解决任务一致性(STC)衡量Agent在多次尝试中解决相同任务的一致性。具体参数设置和损失函数等细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,不同的规划表示对LLM Web Agent的性能有显著影响。例如,某些规划表示在OpenAI的Agent上表现更好,而另一些则在Alibaba或Google的Agent上表现更好。此外,实验还表明,成就率(AR)和已解决任务一致性(STC)是评估Agent性能的有效指标。具体性能提升数据未知。

🎯 应用场景

该研究成果可应用于提升LLM Web Agent的性能,使其能够更有效地完成各种Web任务,例如信息检索、在线购物、自动化测试等。通过选择合适的规划表示,可以提高Agent的鲁棒性和任务成功率,从而在实际应用中发挥更大的价值。未来,该研究可以扩展到其他类型的Agent和任务。

📄 摘要(原文)

Despite recent advances, LLM-based web agents still struggle with limited exploration, omission of critical steps, and sensitivity to task constraints. Prior work suggests that many of these failures stem from weaknesses in planning, yet the impact of alternative natural language plan representation remains unexplored. To address this, we introduce PlanAhead, a static planner-executor framework that evaluates the impact of plan representation in agent performance. We first automatically categorize WebArena tasks into 3 difficulty levels, enabling consistent difficulty grading without human annotation. Then we systematically evaluate 4 different plan representations on the tasks categorized as hard: sequential subgoals, narrative, pseudocode, and checklist; across different families of multimodal LLM powered agents (OpenAI, Alibaba, and Google). To account for stochastic variability, we introduce two novel evaluation metrics: Achievement Rate (AR) and Solved-Task Consistency (STC). Our results show that both, the plan formulation and the underlying LLM generating the plan, significantly influence web-agent robustness and task success.