GUITester: Enabling GUI Agents for Exploratory Defect Discovery

📄 arXiv: 2601.04500v1 📥 PDF

作者: Yifei Gao, Jiang Wu, Xiaoyi Chen, Yifan Yang, Zhe Cui, Tianyi Ma, Jiaming Zhang, Jitao Sang

分类: cs.AI

发布日期: 2026-01-08

🔗 代码/项目: GITHUB


💡 一句话要点

提出GUITester以解决GUI缺陷自主发现问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: GUI测试 缺陷发现 多模态大语言模型 自主探索 软件质量保证

📋 核心要点

  1. 现有的多模态大语言模型在GUI测试中无法自主发现缺陷,主要由于目标导向掩蔽和执行偏差归因问题。
  2. 本文提出GUITester框架,通过规划-执行模块和层次反思模块,解耦导航与验证,提升缺陷发现能力。
  3. GUITester在GUITestBench基准上取得了48.90%的F1分数,相较于基线提升了15.55个百分点,显示出显著的性能优势。

📝 摘要(中文)

探索性GUI测试对软件质量至关重要,但人工成本高昂。现有的多模态大语言模型(MLLM)代理在导航方面表现出色,但在自主发现缺陷方面面临两个核心挑战:目标导向掩蔽和执行偏差归因。为解决这些问题,本文首先引入了GUITestBench,这是首个针对该任务的交互式基准,包含143个任务和26种缺陷。接着,提出了GUITester,一个多代理框架,通过规划-执行模块和层次反思模块将导航与验证解耦。GUITester在GUITestBench上实现了48.90%的F1分数,超越了现有最先进的基线(33.35%)。我们的工作展示了自主探索测试的可行性,并为未来的GUI质量保证提供了坚实基础。

🔬 方法详解

问题定义:本文旨在解决现有多模态大语言模型在GUI测试中无法自主发现缺陷的问题。现有方法面临目标导向掩蔽,代理优先完成任务而忽视缺陷报告,以及执行偏差归因,系统缺陷被误认为是代理错误的挑战。

核心思路:为了解决上述问题,本文提出了GUITester框架,通过将导航与验证解耦,利用规划-执行模块主动探测缺陷,并通过层次反思模块分析交互历史以解决归因模糊性。

技术框架:GUITester的整体架构包括两个主要模块:规划-执行模块(PEM)和层次反思模块(HRM)。PEM负责嵌入测试意图以主动探测缺陷,而HRM则通过分析历史交互来解决归因问题。

关键创新:本文的主要创新在于引入了GUITestBench基准和GUITester框架,首次实现了GUI测试中的自主探索,显著提升了缺陷发现的能力。

关键设计:在设计中,PEM模块嵌入了特定的测试意图,HRM模块则利用交互历史数据进行分析,确保了缺陷归因的准确性。

📊 实验亮点

GUITester在GUITestBench基准上取得了48.90%的F1分数,显著高于现有最先进的基线(33.35%),提升幅度达到15.55个百分点,证明了其在自主探索测试中的有效性。

🎯 应用场景

GUITester的研究成果可广泛应用于软件测试领域,尤其是在GUI质量保证方面。通过减少人工干预,该框架能够提高测试效率,降低成本,并为软件开发生命周期中的缺陷发现提供支持,具有重要的实际价值和潜在影响。

📄 摘要(原文)

Exploratory GUI testing is essential for software quality but suffers from high manual costs. While Multi-modal Large Language Model (MLLM) agents excel in navigation, they fail to autonomously discover defects due to two core challenges: \textit{Goal-Oriented Masking}, where agents prioritize task completion over reporting anomalies, and \textit{Execution-Bias Attribution}, where system defects are misidentified as agent errors. To address these, we first introduce \textbf{GUITestBench}, the first interactive benchmark for this task, featuring 143 tasks across 26 defects. We then propose \textbf{GUITester}, a multi-agent framework that decouples navigation from verification via two modules: (i) a \textit{Planning-Execution Module (PEM)} that proactively probes for defects via embedded testing intents, and (ii) a \textit{Hierarchical Reflection Module (HRM)} that resolves attribution ambiguity through interaction history analysis. GUITester achieves an F1-score of 48.90\% (Pass@3) on GUITestBench, outperforming state-of-the-art baselines (33.35\%). Our work demonstrates the feasibility of autonomous exploratory testing and provides a robust foundation for future GUI quality assurance~\footnote{Our code is now available in~\href{https://github.com/ADaM-BJTU/GUITestBench}{https://github.com/ADaM-BJTU/GUITestBench}}.