WebDART: Dynamic Decomposition and Re-planning for Complex Web Tasks
作者: Jingbo Yang, Bairu Hou, Wei Wei, Shiyu Chang, Yujia Bao
分类: cs.AI
发布日期: 2025-10-08
💡 一句话要点
WebDART:通过动态分解与重规划解决复杂Web任务
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Web自动化 大型语言模型 任务分解 动态重规划 信息提取
📋 核心要点
- 现有LLM Agent在长程Web任务中面临导航、信息提取和约束推理的挑战。
- WebDART通过动态分解任务为导航、信息提取和执行,并进行持续重规划来解决问题。
- 实验表明,WebDART在WebChoreArena上显著提升成功率,并减少导航步骤。
📝 摘要(中文)
大型语言模型(LLM)在简单的Web任务(如打开商品页面或提交表单)中表现出色,但在需要长程导航、大规模信息提取和约束推理的目标上仍然存在困难。我们提出了WebDART,一个通用框架,使单个LLM能够处理这些复杂的任务。WebDART (i) 将每个目标动态分解为三个专注的子任务:导航、信息提取和执行,使模型一次专注于一项技能;(ii) 随着新网页的显示,不断地重新规划分解,利用新发现的过滤器或快捷方式,避免冗余探索。在WebChoreArena上的评估表明,WebDART的成功率比之前的SOTA代理提高了13.7个百分点,同时在更容易的WebArena套件上与其性能相匹配,并以最多减少14.7个导航步骤完成任务。
🔬 方法详解
问题定义:现有的大型语言模型在处理复杂的Web任务时,例如需要长时间导航、从大量网页中提取信息以及在各种约束条件下进行推理的任务时,表现不佳。现有的方法通常难以有效地分解复杂任务,并且无法充分利用在导航过程中发现的新信息,导致效率低下和成功率降低。
核心思路:WebDART的核心思路是将复杂的Web任务动态地分解为三个更易于管理的子任务:导航、信息提取和执行。通过将任务分解,模型可以一次专注于一个特定的技能,从而提高效率和准确性。此外,WebDART还不断地重新规划任务分解,以利用在导航过程中发现的新信息,例如新的过滤器或快捷方式,从而避免冗余的探索。
技术框架:WebDART的整体框架包含以下几个主要模块:1) 任务分解器:将复杂的目标分解为导航、信息提取和执行三个子任务。2) 导航器:负责在Web环境中进行导航,找到目标页面。3) 信息提取器:从当前页面提取所需的信息。4) 执行器:执行特定的操作,例如填写表单或购买商品。5) 重规划器:根据新发现的信息,不断地重新规划任务分解。整个流程是一个迭代的过程,导航器探索网页,信息提取器提取信息,执行器执行操作,重规划器根据结果调整策略。
关键创新:WebDART的关键创新在于其动态分解和重规划的能力。传统的Web Agent通常采用固定的任务分解策略,无法适应Web环境的动态变化。WebDART能够根据当前的状态和新发现的信息,动态地调整任务分解策略,从而提高效率和鲁棒性。此外,WebDART还能够利用新发现的过滤器或快捷方式,避免冗余的探索。
关键设计:WebDART使用大型语言模型作为其核心组件,例如任务分解器、导航器、信息提取器和执行器。具体使用的LLM型号未知。重规划器使用启发式规则和LLM的推理能力来决定何时以及如何重新规划任务分解。导航器使用强化学习或模仿学习来学习导航策略。信息提取器使用预训练的语言模型和微调技术来提取所需的信息。执行器使用预定义的API来执行特定的操作。具体的损失函数和网络结构信息未知。
🖼️ 关键图片
📊 实验亮点
WebDART在WebChoreArena数据集上取得了显著的性能提升,成功率比之前的SOTA代理提高了13.7个百分点。同时,在WebArena数据集上,WebDART的性能与SOTA代理相当,并且在完成任务时减少了最多14.7个导航步骤,表明其效率更高。
🎯 应用场景
WebDART具有广泛的应用前景,可以应用于自动化购物、在线预订、信息搜索和数据收集等领域。该研究的实际价值在于提高了LLM Agent在复杂Web任务中的效率和成功率,未来可能推动Web自动化和智能助手的发展,例如智能客服、自动化报告生成等。
📄 摘要(原文)
Large language model (LLM) agents are becoming competent at straightforward web tasks, such as opening an item page or submitting a form, but still struggle with objectives that require long horizon navigation, large scale information extraction, and reasoning under constraints. We present WebDART, a general framework that enables a single LLM to handle such complex chores. WebDART (i) dynamically decomposes each objective into three focused subtasks: navigation, information extraction, and execution, so the model concentrates on one skill at a time, and (ii) continuously replans the decomposition as new webpages are revealed, taking advantage of newly discovered filters or shortcuts and avoiding redundant exploration. Evaluated on WebChoreArena, WebDART lifts success rates by up to 13.7 percentage points over previous SOTA agents, while matching their performance on the easier WebArena suite and completing tasks with up to 14.7 fewer navigation steps.