WebTestBench: Evaluating Computer-Use Agents towards End-to-End Automated Web Testing
作者: Fanheng Kong, Jingyuan Zhang, Yang Yue, Chenxi Sun, Yang Tian, Shi Feng, Xiaocui Yang, Daling Wang, Yu Tian, Jun Du, Wenchong Zeng, Han Li, Kun Gai
分类: cs.SE, cs.AI, cs.CL, cs.MA
发布日期: 2026-03-26
备注: 24 pages, code: https://github.com/friedrichor/WebTestBench
🔗 代码/项目: GITHUB
💡 一句话要点
WebTestBench:用于评估计算机使用代理的端到端自动化Web测试基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动化Web测试 大型语言模型 基准测试 缺陷检测 检查清单生成
📋 核心要点
- 现有Web测试方法依赖静态视觉相似性或预定义检查清单,难以适应开放环境,且忽略了潜在的逻辑约束。
- 提出WebTestBench基准,将Web测试分解为检查清单生成和缺陷检测两个级联子任务。
- 通过WebTester评估LLM,发现其在测试完整性、缺陷检测和长程交互方面存在显著不足。
📝 摘要(中文)
大型语言模型(LLM)的出现催化了编程领域的范式转变,产生了“vibe coding”,用户可以使用自然语言指令构建完整的项目甚至控制计算机。这种范式推动了自动化网页开发,但也对如何自动验证Web功能是否可靠地实现提出了新的要求。现有方法难以适应,依赖于静态视觉相似性或预定义的检查清单,限制了它们在开放环境中的效用。此外,它们忽略了软件质量的一个重要方面,即潜在的逻辑约束。为了解决这些差距,我们推出了WebTestBench,这是一个用于评估端到端自动化Web测试的基准。WebTestBench涵盖了各种Web应用程序类别的全面维度。我们将测试过程分解为两个级联的子任务:检查清单生成和缺陷检测,并提出了WebTester,一个用于此任务的基线框架。使用WebTester评估流行的LLM揭示了严峻的挑战,包括测试完整性不足、检测瓶颈和长程交互不可靠性。这些发现揭示了当前计算机使用代理能力与工业级部署需求之间存在巨大差距。我们希望WebTestBench为推进端到端自动化Web测试提供有价值的见解和指导。
🔬 方法详解
问题定义:现有Web测试方法主要存在三个痛点:一是难以适应开放式的Web环境,因为它们依赖于静态的视觉相似性或预定义的检查清单;二是忽略了软件质量中非常重要的潜在逻辑约束,导致无法检测到深层次的缺陷;三是现有方法难以进行端到端的自动化测试,需要人工干预。
核心思路:WebTestBench的核心思路是将端到端的Web测试过程分解为两个级联的子任务:检查清单生成和缺陷检测。首先,生成一个全面的检查清单,用于覆盖Web应用的各种功能和逻辑约束。然后,利用这些检查清单来指导缺陷检测过程,从而更有效地发现潜在的问题。这种分解能够降低测试的复杂性,并提高测试的覆盖率和准确性。
技术框架:WebTestBench包含两个主要模块:检查清单生成器和缺陷检测器。检查清单生成器负责根据Web应用的描述和功能需求,自动生成一个包含各种测试用例的检查清单。缺陷检测器则利用这个检查清单,通过模拟用户交互和分析Web应用的响应,来检测潜在的缺陷。论文还提出了一个名为WebTester的基线框架,用于实现这两个模块。
关键创新:WebTestBench的关键创新在于它提供了一个全面的、可扩展的、并且能够评估端到端自动化Web测试的基准。与现有方法相比,WebTestBench更加注重测试的完整性和逻辑约束,能够更有效地发现深层次的缺陷。此外,WebTestBench还提供了一个基线框架WebTester,方便研究人员进行实验和比较。
关键设计:WebTester框架的具体实现细节未知,但可以推测检查清单生成器可能利用LLM来理解Web应用的需求,并生成相应的测试用例。缺陷检测器可能采用强化学习或模仿学习等技术,通过模拟用户交互来检测缺陷。具体的损失函数和网络结构等细节在论文中未详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
使用WebTester评估流行的LLM,结果表明它们在端到端自动化Web测试方面存在显著不足。具体表现为测试完整性不足,无法覆盖所有功能和逻辑约束;缺陷检测存在瓶颈,难以发现深层次的缺陷;长程交互不可靠,容易出现错误。这些结果表明,当前计算机使用代理的能力与工业级部署的需求之间存在较大差距。
🎯 应用场景
WebTestBench可应用于各种Web应用的自动化测试,例如电商网站、社交媒体平台、在线教育系统等。它可以帮助开发者更有效地发现和修复Web应用中的缺陷,提高软件质量,降低维护成本。此外,WebTestBench还可以用于评估和比较不同自动化测试工具的性能,推动Web测试技术的发展。
📄 摘要(原文)
The emergence of Large Language Models (LLMs) has catalyzed a paradigm shift in programming, giving rise to "vibe coding", where users can build complete projects and even control computers using natural language instructions. This paradigm has driven automated webpage development, but it introduces a new requirement about how to automatically verify whether the web functionalities are reliably implemented. Existing works struggle to adapt, relying on static visual similarity or predefined checklists that constrain their utility in open-ended environments. Furthermore, they overlook a vital aspect of software quality, namely latent logical constraints. To address these gaps, we introduce WebTestBench, a benchmark for evaluating end-to-end automated web testing. WebTestBench encompasses comprehensive dimensions across diverse web application categories. We decompose the testing process into two cascaded sub-tasks, checklist generation and defect detection, and propose WebTester, a baseline framework for this task. Evaluating popular LLMs with WebTester reveals severe challenges, including insufficient test completeness, detection bottlenecks, and long-horizon interaction unreliability. These findings expose a substantial gap between current computer-use agent capabilities and industrial-grade deployment demands. We hope that WebTestBench provides valuable insights and guidance for advancing end-to-end automated web testing. Our dataset and code are available at https://github.com/friedrichor/WebTestBench.