GUITester: Enabling GUI Agents for Exploratory Defect Discovery
作者: Yifei Gao, Jiang Wu, Xiaoyi Chen, Yifan Yang, Zhe Cui, Tianyi Ma, Jiaming Zhang, Jitao Sang
分类: cs.AI
发布日期: 2026-01-08
🔗 代码/项目: GITHUB
💡 一句话要点
提出GUITester以解决GUI缺陷自主发现问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: GUI测试 缺陷发现 多模态大语言模型 自主测试 软件质量保证
📋 核心要点
- 现有的多模态大语言模型在GUI测试中无法自主发现缺陷,主要受限于目标导向掩蔽和执行偏差归因问题。
- 本文提出GUITester,通过规划执行模块和层次反思模块,将导航与缺陷验证解耦,以提高缺陷发现能力。
- GUITester在GUITestBench基准测试中取得了48.90%的F1分数,显著优于现有方法的33.35%,展示了其有效性。
📝 摘要(中文)
探索性GUI测试对软件质量至关重要,但人工成本高昂。现有的多模态大语言模型(MLLM)代理在导航方面表现出色,但由于目标导向掩蔽和执行偏差归因等挑战,无法自主发现缺陷。为此,本文首次引入GUITestBench,这是一个包含143个任务和26种缺陷的交互式基准测试。我们提出了GUITester,一个多代理框架,通过规划执行模块(PEM)和层次反思模块(HRM)将导航与验证解耦。GUITester在GUITestBench上实现了48.90%的F1分数(Pass@3),超越了现有的基线(33.35%)。我们的工作展示了自主探索测试的可行性,并为未来的GUI质量保证奠定了坚实基础。
🔬 方法详解
问题定义:本文旨在解决现有多模态大语言模型在探索性GUI测试中无法自主发现缺陷的问题。现有方法面临目标导向掩蔽,代理优先完成任务而忽视缺陷报告,以及执行偏差归因,系统缺陷被误认为是代理错误的挑战。
核心思路:我们提出GUITester,通过引入规划执行模块(PEM)和层次反思模块(HRM),将导航与缺陷验证解耦。PEM通过嵌入测试意图主动探测缺陷,而HRM通过分析交互历史解决归因模糊性。
技术框架:GUITester的整体架构包含两个主要模块:规划执行模块(PEM)和层次反思模块(HRM)。PEM负责缺陷探测,HRM则负责分析和归因。两者协同工作,提升了缺陷发现的准确性和效率。
关键创新:GUITester的核心创新在于将导航与验证解耦,首次实现了自主探索测试的能力。通过引入交互历史分析,HRM有效解决了执行偏差归因的问题,显著提高了缺陷发现的准确性。
关键设计:在设计中,PEM嵌入了测试意图以引导缺陷探测,HRM则利用交互历史数据进行分析。具体的参数设置和损失函数设计未在摘要中详细说明,需参考完整论文以获取更多技术细节。
📊 实验亮点
GUITester在GUITestBench基准测试中实现了48.90%的F1分数(Pass@3),相比于现有的基线(33.35%)有显著提升,展示了其在自主探索性GUI测试中的有效性和潜力。
🎯 应用场景
该研究的潜在应用领域包括软件测试、质量保证和自动化测试工具的开发。GUITester为自主探索性GUI测试提供了新的思路,能够显著降低人工成本,提高缺陷发现的效率和准确性,未来可能在软件开发生命周期中发挥重要作用。
📄 摘要(原文)
Exploratory GUI testing is essential for software quality but suffers from high manual costs. While Multi-modal Large Language Model (MLLM) agents excel in navigation, they fail to autonomously discover defects due to two core challenges: \textit{Goal-Oriented Masking}, where agents prioritize task completion over reporting anomalies, and \textit{Execution-Bias Attribution}, where system defects are misidentified as agent errors. To address these, we first introduce \textbf{GUITestBench}, the first interactive benchmark for this task, featuring 143 tasks across 26 defects. We then propose \textbf{GUITester}, a multi-agent framework that decouples navigation from verification via two modules: (i) a \textit{Planning-Execution Module (PEM)} that proactively probes for defects via embedded testing intents, and (ii) a \textit{Hierarchical Reflection Module (HRM)} that resolves attribution ambiguity through interaction history analysis. GUITester achieves an F1-score of 48.90\% (Pass@3) on GUITestBench, outperforming state-of-the-art baselines (33.35\%). Our work demonstrates the feasibility of autonomous exploratory testing and provides a robust foundation for future GUI quality assurance~\footnote{Our code is now available in~\href{https://github.com/ADaM-BJTU/GUITestBench}{https://github.com/ADaM-BJTU/GUITestBench}}.