World-Model-Augmented Web Agents with Action Correction

📄 arXiv: 2602.15384v1 📥 PDF

作者: Zhouzhou Shen, Xueyu Hu, Xiyun Li, Tianqing Fang, Juncheng Li, Shengyu Zhang

分类: cs.AI, cs.CL

发布日期: 2026-02-17


💡 一句话要点

提出WAC,通过世界模型增强Web Agent,并进行动作校正,提升Web任务自动化能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Web Agent 世界模型 多Agent协作 动作校正 风险感知

📋 核心要点

  1. 现有Web Agent在预测环境变化和感知执行风险方面存在不足,导致难以推理出合理动作,易发生任务失败。
  2. WAC通过引入多Agent协作、结果模拟和反馈驱动的动作改进,增强Agent的推理能力和风险意识。
  3. 实验结果表明,WAC在VisualWebArena和Online-Mind2Web数据集上均取得了显著的性能提升。

📝 摘要(中文)

基于大型语言模型的Web Agent在自动化Web任务方面展现出潜力。然而,由于预测环境变化的局限性,当前的Web Agent难以推理出合理的动作,并且可能缺乏对执行风险的全面认知,过早地执行导致损失和任务失败的风险动作。为了解决这些挑战,我们提出了WAC,一种集成了模型协作、结果模拟和反馈驱动的动作改进的Web Agent。为了克服单个模型的认知孤立,我们引入了一个多Agent协作过程,使动作模型能够咨询世界模型作为Web环境专家以获得战略指导;然后,动作模型将这些建议转化为可执行的动作,利用环境状态转换动态的先验知识来增强候选动作的提议。为了实现具有风险意识的弹性任务执行,我们引入了一个两阶段的演绎链。一个专门研究环境状态转换的世界模型模拟动作结果,然后一个判断模型对其进行审查,并在必要时触发动作纠正反馈。实验表明,WAC在VisualWebArena上实现了1.8%的绝对收益,在Online-Mind2Web上实现了1.3%的绝对收益。

🔬 方法详解

问题定义:现有基于大型语言模型的Web Agent在自动化Web任务中面临挑战,主要痛点在于难以准确预测环境变化,导致无法推理出合理的动作序列,并且缺乏对执行风险的有效评估,容易执行导致任务失败的动作。

核心思路:WAC的核心思路是利用世界模型来增强Web Agent对环境的理解和预测能力,并通过多Agent协作和反馈机制来提高动作的合理性和安全性。具体来说,WAC引入了一个专门用于模拟环境状态转换的世界模型,并让动作模型向其咨询,以获得战略指导。同时,WAC还设计了一个两阶段的演绎链,用于模拟动作结果并进行风险评估,从而实现风险感知的任务执行。

技术框架:WAC的整体架构包含以下几个主要模块:1) 动作模型:负责生成候选动作;2) 世界模型:作为Web环境专家,提供战略指导和环境状态转换的预测;3) 多Agent协作模块:动作模型向世界模型咨询,并将世界模型的建议转化为可执行的动作;4) 结果模拟模块:世界模型模拟动作的执行结果;5) 判断模型:评估动作执行的风险,并触发动作纠正反馈。整个流程是一个迭代的过程,通过不断地模拟、评估和纠正,最终找到最优的动作序列。

关键创新:WAC的关键创新在于将世界模型引入到Web Agent中,并利用多Agent协作的方式来增强Agent的推理能力和风险意识。与现有方法相比,WAC能够更准确地预测环境变化,并更有效地评估执行风险,从而提高任务的成功率。此外,WAC的两阶段演绎链也为风险感知的任务执行提供了一种新的思路。

关键设计:论文中没有详细描述关键参数设置、损失函数、网络结构等技术细节。世界模型和判断模型的具体实现方式未知,多Agent协作的具体机制也需要进一步了解。这些细节对于复现和改进WAC至关重要,但论文中并未提供足够的信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,WAC在VisualWebArena数据集上取得了1.8%的绝对收益,在Online-Mind2Web数据集上取得了1.3%的绝对收益。这些结果表明,WAC能够有效地提高Web Agent的性能,并优于现有的方法。具体的基线模型和详细的实验设置未知。

🎯 应用场景

WAC具有广泛的应用前景,可用于自动化各种Web任务,例如在线购物、信息检索、数据录入等。通过提高Web Agent的智能化水平和安全性,WAC可以显著提高工作效率,降低人工成本,并减少人为错误。未来,WAC还可以应用于更复杂的Web环境,例如动态网页和交互式应用。

📄 摘要(原文)

Web agents based on large language models have demonstrated promising capability in automating web tasks. However, current web agents struggle to reason out sensible actions due to the limitations of predicting environment changes, and might not possess comprehensive awareness of execution risks, prematurely performing risky actions that cause losses and lead to task failure. To address these challenges, we propose WAC, a web agent that integrates model collaboration, consequence simulation, and feedback-driven action refinement. To overcome the cognitive isolation of individual models, we introduce a multi-agent collaboration process that enables an action model to consult a world model as a web-environment expert for strategic guidance; the action model then grounds these suggestions into executable actions, leveraging prior knowledge of environmental state transition dynamics to enhance candidate action proposal. To achieve risk-aware resilient task execution, we introduce a two-stage deduction chain. A world model, specialized in environmental state transitions, simulates action outcomes, which a judge model then scrutinizes to trigger action corrective feedback when necessary. Experiments show that WAC achieves absolute gains of 1.8% on VisualWebArena and 1.3% on Online-Mind2Web.