WebSuite: Systematically Evaluating Why Web Agents Fail
作者: Eric Li, Jim Waldo
分类: cs.SE, cs.AI
发布日期: 2024-06-01
💡 一句话要点
WebSuite:系统性诊断Web Agent失败原因的评测基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Web Agent 评测基准 诊断性评估 Web行为分类 自动化测试
📋 核心要点
- 现有Web Agent评测基准主要关注任务完成度,缺乏对失败原因的深入分析。
- WebSuite通过Web行为分类法和可扩展的基准套件,将任务失败归因于特定行为。
- 实验评估了文本和多模态两种Agent,揭示了各自的弱点,为改进提供了方向。
📝 摘要(中文)
本文介绍了WebSuite,这是首个用于通用Web Agent的诊断性基准,旨在系统地评估Agent失败的原因。人工智能的进步催生了许多能够自主操作浏览器完成任务的Web Agent。然而,现有的大多数基准侧重于严格地衡量Agent是否能够完成任务,而没有深入了解原因。在本文中,我们1)开发了一个Web行为分类法,以促进识别常见的失败模式,以及2)创建一个可扩展的基准测试套件,以评估Agent在我们分类的行为上的性能。该基准测试套件由诸如点击按钮之类的单个任务和诸如将商品添加到购物车之类的端到端任务组成,并且被设计为任何任务的失败都可以直接归因于特定Web行为的失败。我们评估了两个流行的通用Web Agent,一个基于文本,另一个是多模态的,并确定了每个Agent的独特弱点。由于WebSuite可以将任务失败分解为特定的行为失败,因此可以精细地识别单个Agent在哪些UX流程中遇到问题,并立即突出显示有希望的改进途径。这些发现强调需要更加关注Web Agent出错的地方,以便有效地改进Agent,使其超越目前的较弱性能。
🔬 方法详解
问题定义:现有Web Agent的评测基准主要关注Agent能否完成任务,而忽略了Agent失败的原因。这使得研究人员难以定位Agent的弱点,并有针对性地进行改进。因此,需要一个能够系统性诊断Web Agent失败原因的评测基准。
核心思路:WebSuite的核心思路是将复杂的Web任务分解为一系列基本的Web行为,例如点击按钮、填写表单等。通过对这些基本行为进行评估,可以精确定位Agent在哪些环节出现问题,从而深入了解Agent的弱点。
技术框架:WebSuite包含两个主要组成部分:Web行为分类法和可扩展的基准测试套件。Web行为分类法定义了一系列基本的Web行为,例如点击、输入、选择等。基准测试套件包含一系列任务,这些任务被设计为可以分解为Web行为分类法中的基本行为。通过执行这些任务,可以评估Agent在不同Web行为上的性能。
关键创新:WebSuite的关键创新在于其诊断性。与传统的评测基准不同,WebSuite不仅可以评估Agent能否完成任务,还可以诊断Agent失败的原因。这使得研究人员可以更有针对性地改进Agent。
关键设计:WebSuite的基准测试套件包含单个任务和端到端任务。单个任务旨在评估Agent在特定Web行为上的性能,例如点击按钮。端到端任务旨在评估Agent在完成复杂Web任务时的性能,例如将商品添加到购物车。WebSuite还设计为可扩展的,可以方便地添加新的任务和Web行为。
🖼️ 关键图片
📊 实验亮点
研究人员使用WebSuite评估了两种流行的通用Web Agent,分别是基于文本的和多模态的。结果表明,两种Agent在不同的Web行为上表现出不同的弱点。例如,基于文本的Agent在处理视觉信息方面存在困难,而多模态Agent在理解自然语言方面存在不足。这些结果表明,WebSuite可以有效地诊断Web Agent的弱点,并为改进提供指导。
🎯 应用场景
WebSuite可用于评估和改进各种Web Agent,例如自动化测试工具、智能助手和网页爬虫。通过诊断Agent的弱点,可以提高其在Web环境中的可靠性和效率,从而提升用户体验,并降低开发和维护成本。该研究对开发更智能、更可靠的Web Agent具有重要意义。
📄 摘要(原文)
We describe WebSuite, the first diagnostic benchmark for generalist web agents, designed to systematically evaluate why agents fail. Advances in AI have led to the rise of numerous web agents that autonomously operate a browser to complete tasks. However, most existing benchmarks focus on strictly measuring whether an agent can or cannot complete a task, without giving insight on why. In this paper, we 1) develop a taxonomy of web actions to facilitate identifying common failure patterns, and 2) create an extensible benchmark suite to assess agents' performance on our taxonomized actions. This benchmark suite consists of both individual tasks, such as clicking a button, and end-to-end tasks, such as adding an item to a cart, and is designed such that any failure of a task can be attributed directly to a failure of a specific web action. We evaluate two popular generalist web agents, one text-based and one multimodal, and identify unique weaknesses for each agent. Because WebSuite can disaggregate task failures into specific action failures, this enables granular identification of which UX flows an individual agent has trouble with and immediately highlights promising avenues for improvement. These findings highlight the need for more focused benchmarking on where web agents go wrong to effectively improve agents beyond their weaker performance today.