GUI Testing Arena: A Unified Benchmark for Advancing Autonomous GUI Testing Agent
作者: Kangjia Zhao, Jiahui Song, Leigang Sha, Haozhan Shen, Zhi Chen, Tiancheng Zhao, Xiubo Liang, Jianwei Yin
分类: cs.AI
发布日期: 2024-12-24
🔗 代码/项目: GITHUB
💡 一句话要点
提出GUI测试竞技场(GTArena),用于评估和提升自主GUI测试Agent的性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: GUI测试 自动化测试 多模态大模型 基准测试 缺陷检测
📋 核心要点
- 现有GUI Agent研究主要集中于任务自动化,限制了其在各种GUI场景中的应用。
- 提出GTArena,一个全面的自动化GUI测试环境,包含测试意图生成、任务执行和缺陷检测三个子任务。
- 实验结果表明,现有模型在自动化GUI测试的各个子任务中表现不佳,与实际应用存在差距。
📝 摘要(中文)
本文提出一个形式化且全面的环境,用于评估自动化GUI测试的整个过程(GTArena)。该环境为多模态大型语言模型提供了一个公平、标准化的操作平台。我们将测试过程分解为三个关键子任务:测试意图生成、测试任务执行和GUI缺陷检测,并基于此构建了一个基准数据集,以进行全面评估。该数据集使用真实移动应用、人工注入缺陷的移动应用和合成数据三种类型,彻底评估模型在相关任务中的能力。此外,我们提出了一种方法,帮助研究人员探索多模态语言大模型在特定场景中的性能与其在标准基准测试中的通用能力之间的相关性。实验结果表明,即使是最先进的模型也难以在自动化GUI测试的所有子任务中表现良好,突显了当前自主GUI测试能力与实际应用之间的显著差距。这一差距为GUI Agent的未来发展方向提供了指导。
🔬 方法详解
问题定义:现有GUI Agent的研究主要集中在GUI任务自动化上,缺乏对GUI测试的全面评估。现有的方法难以覆盖测试意图生成、测试任务执行和GUI缺陷检测等关键环节,导致模型在实际应用中表现不佳。因此,需要一个统一的基准来评估和提升GUI Agent的测试能力。
核心思路:本文的核心思路是构建一个标准化的GUI测试环境,将测试过程分解为多个子任务,并提供多样化的数据集,从而全面评估GUI Agent的性能。通过分析模型在不同子任务上的表现,可以更好地了解模型的优势和不足,并指导未来的研究方向。
技术框架:GTArena包含三个主要模块:测试意图生成模块、测试任务执行模块和GUI缺陷检测模块。测试意图生成模块负责生成测试目标;测试任务执行模块根据测试目标执行相应的操作;GUI缺陷检测模块负责检测GUI界面中存在的缺陷。整个流程通过一个统一的API进行控制,方便不同模型的接入和评估。
关键创新:GTArena的关键创新在于其全面性和标准化。它不仅考虑了测试任务的执行,还包括了测试意图的生成和缺陷的检测,从而更完整地模拟了真实的GUI测试过程。此外,GTArena提供了一个标准化的评估环境,使得不同模型可以在相同的条件下进行比较,从而更客观地评估模型的性能。
关键设计:GTArena的数据集包含三种类型:真实移动应用、人工注入缺陷的移动应用和合成数据。真实移动应用用于评估模型在真实场景中的表现;人工注入缺陷的移动应用用于评估模型检测缺陷的能力;合成数据用于增加数据集的多样性。此外,论文还提出了一种方法,用于探索多模态语言大模型在特定场景中的性能与其在标准基准测试中的通用能力之间的相关性。具体参数设置和损失函数等技术细节在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是最先进的模型也难以在自动化GUI测试的所有子任务中表现良好。这突显了当前自主GUI测试能力与实际应用之间的显著差距。该研究为GUI Agent的未来发展方向提供了指导,并为研究人员提供了一个有价值的基准测试平台。
🎯 应用场景
该研究成果可应用于自动化软件测试、移动应用质量评估、以及AI辅助的GUI开发等领域。通过GTArena,开发者可以更有效地评估和改进GUI Agent的性能,从而提高软件质量和用户体验。未来,该研究可以扩展到更多类型的GUI界面,例如Web应用和桌面应用。
📄 摘要(原文)
Nowadays, research on GUI agents is a hot topic in the AI community. However, current research focuses on GUI task automation, limiting the scope of applications in various GUI scenarios. In this paper, we propose a formalized and comprehensive environment to evaluate the entire process of automated GUI Testing (GTArena), offering a fair, standardized environment for consistent operation of diverse multimodal large language models. We divide the testing process into three key subtasks: test intention generation, test task execution, and GUI defect detection, and construct a benchmark dataset based on these to conduct a comprehensive evaluation. It evaluates the performance of different models using three data types: real mobile applications, mobile applications with artificially injected defects, and synthetic data, thoroughly assessing their capabilities in this relevant task. Additionally, we propose a method that helps researchers explore the correlation between the performance of multimodal language large models in specific scenarios and their general capabilities in standard benchmark tests. Experimental results indicate that even the most advanced models struggle to perform well across all sub-tasks of automated GUI Testing, highlighting a significant gap between the current capabilities of Autonomous GUI Testing and its practical, real-world applicability. This gap provides guidance for the future direction of GUI Agent development. Our code is available at https://github.com/ZJU-ACES-ISE/ChatUITest.