BEARCUBS: A benchmark for computer-using web agents
作者: Yixiao Song, Katherine Thai, Chau Minh Pham, Yapei Chang, Mazin Nadaf, Mohit Iyyer
分类: cs.AI, cs.CL, cs.LG
发布日期: 2025-03-10 (更新: 2025-07-24)
备注: 16 pages
💡 一句话要点
BEARCUBS:用于评估计算机使用Web代理能力的小型但强大的基准测试
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Web代理 基准测试 计算机使用 多模态交互 信息检索
📋 核心要点
- 现有Web代理评估缺乏真实性和多模态交互,难以准确衡量其在复杂任务中的能力。
- BEARCUBS基准测试通过访问实时Web内容和要求多模态交互,更真实地评估Web代理的性能。
- 实验表明,ChatGPT Agent在BEARCUBS上表现优异,但仍有提升空间,尤其是在精细控制和数据过滤方面。
📝 摘要(中文)
现代Web代理具备计算机使用能力,可以通过向虚拟键盘和鼠标发送命令与网页交互。为了评估这些代理在真实环境中的能力,我们提出了BEARCUBS,一个包含111个信息检索问题的“小型但强大”的基准测试,旨在评估Web代理的搜索、浏览和从Web识别事实信息的能力。与之前的Web代理基准测试不同,BEARCUBS需要(1)访问实时Web内容,而非合成或模拟页面,以捕捉真实Web交互的不可预测性;(2)执行广泛的多模态交互(例如,视频理解、3D导航),这些交互无法通过基于文本的变通方法绕过。BEARCUBS中的每个问题都有一个简短、明确的答案和人工验证的浏览轨迹,从而可以透明地评估代理的性能和策略。一项人类研究证实,BEARCUBS问题是可解决但非平凡的(人类准确率为84.7%),揭示了领域知识差距和被忽视的细节是常见的失败点。ChatGPT Agent显著优于其他计算机使用代理,总体准确率为65.8%(例如,Operator为23.4%),展示了在涉及真实计算机使用的任务(如玩Web游戏和导航3D环境)方面的显著进展。然而,要缩小与人类表现的差距,需要在精细控制、复杂数据过滤和执行速度等方面进行改进。为了促进未来的研究,BEARCUBS将定期更新,以替换无效或受污染的问题,保持基准测试对未来Web代理的新鲜度。
🔬 方法详解
问题定义:现有Web代理的评估基准通常使用合成或模拟的网页环境,无法捕捉真实Web交互的复杂性和不可预测性。此外,许多基准可以通过文本处理等方式绕过多模态交互的需求,无法全面评估代理的计算机使用能力。因此,需要一个更真实、更具挑战性的基准来评估Web代理在实际应用中的性能。
核心思路:BEARCUBS的核心思路是创建一个小型但具有代表性的信息检索问题集,这些问题需要代理访问实时Web内容,并执行各种多模态交互(如视频理解、3D导航)才能解决。通过人工验证的浏览轨迹,可以透明地评估代理的性能和策略,从而更好地了解其优势和不足。
技术框架:BEARCUBS基准测试包含以下几个关键组成部分:1) 111个信息检索问题,每个问题都有一个简短、明确的答案;2) 访问实时Web内容的环境;3) 支持多模态交互的接口;4) 人工验证的浏览轨迹,用于评估代理的性能;5) 评估指标,用于衡量代理的准确率和效率。
关键创新:BEARCUBS的关键创新在于其真实性和多模态性。与之前的基准测试相比,BEARCUBS要求代理访问实时Web内容,这使得评估更加真实和具有挑战性。此外,BEARCUBS还要求代理执行各种多模态交互,这使得评估更加全面,能够更好地反映代理的计算机使用能力。
关键设计:BEARCUBS的问题设计侧重于信息检索,涵盖了各种主题和难度级别。为了确保问题的质量,每个问题都经过了人工验证,并附带了人工验证的浏览轨迹。评估指标包括准确率和效率,其中准确率衡量代理是否能够找到正确的答案,效率衡量代理完成任务所需的时间和资源。
🖼️ 关键图片
📊 实验亮点
ChatGPT Agent在BEARCUBS上取得了65.8%的总体准确率,显著优于其他计算机使用代理,例如Operator的23.4%。这表明ChatGPT Agent在处理涉及真实计算机使用的任务方面取得了显著进展。然而,与人类的84.7%准确率相比,仍有提升空间,尤其是在精细控制、复杂数据过滤和执行速度方面。
🎯 应用场景
BEARCUBS可用于评估和改进Web代理在各种实际应用中的性能,例如智能助手、自动化信息检索、在线教育和电子商务。通过使用BEARCUBS,研究人员可以更好地了解Web代理的优势和不足,并开发出更强大、更智能的Web代理,从而提高用户的工作效率和生活质量。
📄 摘要(原文)
Modern web agents possess computer use abilities that allow them to interact with webpages by sending commands to a virtual keyboard and mouse. While such agents have considerable potential to assist human users with complex tasks, evaluating their capabilities in real-world settings poses a major challenge. To this end, we introduce BEARCUBS, a "smallbut mighty" benchmark of 111 information-seeking questions designed to evaluate a web agent's ability to search, browse, and identify factual information from the web. Unlike prior web agent benchmarks, solving BEARCUBS requires (1) accessing live web content rather than synthetic or simulated pages, which captures the unpredictability of real-world web interactions; and (2) performing a broad range of multimodal interactions (e.g., video understanding, 3D navigation) that cannot be bypassed via text-based workarounds. Each question in BEARCUBS has a corresponding short, unambiguous answer and a human-validated browsing trajectory, allowing for transparent evaluation of agent performance and strategies. A human study confirms that BEARCUBS questions are solvable but non-trivial (84.7% human accuracy), revealing domain knowledge gaps and overlooked details as common failure points. We find that ChatGPT Agent significantly outperforms other computer-using agents with an overall accuracy of 65.8% (compared to e.g., Operator's 23.4%), showcasing substantial progress in tasks involving real computer use, such as playing web games and navigating 3D environments. Nevertheless, closing the gap to human performance requires improvements in areas like fine control, complex data filtering, and execution speed. To facilitate future research, BEARCUBS will be updated periodically to replace invalid or contaminated questions, keeping the benchmark fresh for future generations of web agents.