A Survey of WebAgents: Towards Next-Generation AI Agents for Web Automation with Large Foundation Models

📄 arXiv: 2503.23350v4 📥 PDF

作者: Liangbo Ning, Ziran Liang, Zhuohang Jiang, Haohao Qu, Yujuan Ding, Wenqi Fan, Xiao-yong Wei, Shanru Lin, Hui Liu, Philip S. Yu, Qing Li

分类: cs.AI

发布日期: 2025-03-30 (更新: 2025-08-05)

备注: This is the long version of the corresponding survey paper accepted by KDD 2025. The tutorial and corresponding slides are available at https://biglemon-ning.github.io/WebAgents/


💡 一句话要点

综述WebAgent:基于大型模型的新一代Web自动化AI Agent

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: WebAgent Web自动化 大型语言模型 AI Agent 智能Agent

📋 核心要点

  1. Web任务繁琐耗时,降低生活质量,亟需自动化解决方案。
  2. 利用大型语言模型(LLM)构建WebAgent,模拟人类进行Web操作,提升效率。
  3. 该综述全面回顾WebAgent的研究进展,涵盖架构、训练和可信度等方面。

📝 摘要(中文)

随着Web技术的进步,人们生活的各个方面都发生了显著的变革。尽管Web至关重要,但在其上执行的许多任务都是重复且耗时的,从而对整体生活质量产生负面影响。为了高效地处理这些繁琐的日常任务,最有希望的方法之一是推进基于人工智能(AI)技术的自主Agent,即AI Agent,因为它们可以持续运行而不会疲劳或性能下降。在Web环境中,利用AI Agent(称为WebAgent)自动协助人们处理繁琐的日常任务可以极大地提高生产力和效率。最近,包含数十亿参数的大型基础模型(LFM)表现出类似人类的语言理解和推理能力,显示出执行各种复杂任务的能力。这自然引出了一个问题:LFM能否用于开发强大的AI Agent,自动处理Web任务,从而为用户提供极大的便利?为了充分探索LFM的潜力,大量研究涌现,致力于设计WebAgent,以根据用户指令完成日常Web任务,从而显著提高人类日常生活的便利性。在本调查中,我们全面回顾了现有关于WebAgent的研究,涵盖三个关键方面:架构、训练和可信度。此外,还探讨了未来研究的几个有希望的方向,以提供更深入的见解。

🔬 方法详解

问题定义:该论文旨在解决Web任务自动化的问题。现有方法通常效率低下,需要人工干预,并且难以适应复杂的Web环境。痛点在于如何利用AI技术,特别是大型语言模型,构建能够自主完成Web任务的智能Agent。

核心思路:核心思路是利用大型语言模型(LLM)的强大语言理解和推理能力,将其应用于Web任务的自动化。通过将Web页面信息转化为LLM可以理解的文本或结构化数据,并结合用户指令,使LLM能够规划和执行Web操作。

技术框架:WebAgent的整体架构通常包含以下几个主要模块:1) 环境感知模块:负责从Web页面提取信息,例如文本、HTML结构、视觉元素等。2) 任务理解模块:负责解析用户指令,理解用户的意图。3) 决策模块:基于环境感知和任务理解的结果,规划Web操作序列。4) 执行模块:执行决策模块生成的Web操作,例如点击链接、填写表单等。5) 反馈模块:评估执行结果,并根据结果调整策略。

关键创新:关键创新在于将大型语言模型应用于Web自动化领域,利用LLM的zero-shot或few-shot能力,使Agent能够适应不同的Web任务和环境,而无需大量的特定任务训练数据。此外,一些研究还关注如何提高WebAgent的可信度,例如通过提供操作解释、允许用户干预等方式。

关键设计:关键设计包括:1) 如何有效地将Web页面信息编码为LLM可以理解的格式。2) 如何设计合适的prompt,引导LLM进行任务规划和决策。3) 如何设计奖励函数,鼓励Agent学习高效的Web操作策略。4) 如何处理Web环境中的不确定性和动态变化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该综述总结了现有WebAgent的研究进展,并指出了未来研究的几个有希望的方向,例如提高WebAgent的鲁棒性、可解释性和安全性。此外,该综述还讨论了如何利用多模态信息(例如图像、视频)来增强WebAgent的环境感知能力。这些研究方向对于推动Web自动化技术的发展具有重要意义。

🎯 应用场景

WebAgent具有广泛的应用前景,例如自动预订机票酒店、在线购物、信息搜索、社交媒体管理等。它可以显著提高工作效率,节省时间,并降低人工操作的错误率。未来,WebAgent有望成为个人助理的重要组成部分,为用户提供更加智能和便捷的Web服务。

📄 摘要(原文)

With the advancement of web techniques, they have significantly revolutionized various aspects of people's lives. Despite the importance of the web, many tasks performed on it are repetitive and time-consuming, negatively impacting overall quality of life. To efficiently handle these tedious daily tasks, one of the most promising approaches is to advance autonomous agents based on Artificial Intelligence (AI) techniques, referred to as AI Agents, as they can operate continuously without fatigue or performance degradation. In the context of the web, leveraging AI Agents -- termed WebAgents -- to automatically assist people in handling tedious daily tasks can dramatically enhance productivity and efficiency. Recently, Large Foundation Models (LFMs) containing billions of parameters have exhibited human-like language understanding and reasoning capabilities, showing proficiency in performing various complex tasks. This naturally raises the question: `Can LFMs be utilized to develop powerful AI Agents that automatically handle web tasks, providing significant convenience to users?' To fully explore the potential of LFMs, extensive research has emerged on WebAgents designed to complete daily web tasks according to user instructions, significantly enhancing the convenience of daily human life. In this survey, we comprehensively review existing research studies on WebAgents across three key aspects: architectures, training, and trustworthiness. Additionally, several promising directions for future research are explored to provide deeper insights.