GUITester: Enabling GUI Agents for Exploratory Defect Discovery

作者: Yifei Gao, Jiang Wu, Xiaoyi Chen, Yifan Yang, Zhe Cui, Tianyi Ma, Jiaming Zhang, Jitao Sang

分类: cs.AI

发布日期: 2026-01-08

🔗 代码/项目: GITHUB

💡 一句话要点

提出GUITester以解决GUI缺陷自主发现问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: GUI测试 缺陷发现 多模态大语言模型 自主探索 软件质量保证

📋 核心要点

现有的多模态大语言模型在GUI测试中无法自主发现缺陷，主要由于目标导向掩蔽和执行偏差归因问题。
本文提出GUITester框架，通过规划-执行模块和层次反思模块，解耦导航与验证，提升缺陷发现能力。
GUITester在GUITestBench基准上取得了48.90%的F1分数，相较于基线提升了15.55个百分点，显示出显著的性能优势。

📝 摘要（中文）

探索性GUI测试对软件质量至关重要，但人工成本高昂。现有的多模态大语言模型（MLLM）代理在导航方面表现出色，但在自主发现缺陷方面面临两个核心挑战：目标导向掩蔽和执行偏差归因。为解决这些问题，本文首先引入了GUITestBench，这是首个针对该任务的交互式基准，包含143个任务和26种缺陷。接着，提出了GUITester，一个多代理框架，通过规划-执行模块和层次反思模块将导航与验证解耦。GUITester在GUITestBench上实现了48.90%的F1分数，超越了现有最先进的基线（33.35%）。我们的工作展示了自主探索测试的可行性，并为未来的GUI质量保证提供了坚实基础。

🔬 方法详解

问题定义：本文旨在解决现有多模态大语言模型在GUI测试中无法自主发现缺陷的问题。现有方法面临目标导向掩蔽，代理优先完成任务而忽视缺陷报告，以及执行偏差归因，系统缺陷被误认为是代理错误的挑战。

核心思路：为了解决上述问题，本文提出了GUITester框架，通过将导航与验证解耦，利用规划-执行模块主动探测缺陷，并通过层次反思模块分析交互历史以解决归因模糊性。

技术框架：GUITester的整体架构包括两个主要模块：规划-执行模块（PEM）和层次反思模块（HRM）。PEM负责嵌入测试意图以主动探测缺陷，而HRM则通过分析历史交互来解决归因问题。

关键创新：本文的主要创新在于引入了GUITestBench基准和GUITester框架，首次实现了GUI测试中的自主探索，显著提升了缺陷发现的能力。

关键设计：在设计中，PEM模块嵌入了特定的测试意图，HRM模块则利用交互历史数据进行分析，确保了缺陷归因的准确性。

📊 实验亮点

GUITester在GUITestBench基准上取得了48.90%的F1分数，显著高于现有最先进的基线（33.35%），提升幅度达到15.55个百分点，证明了其在自主探索测试中的有效性。

🎯 应用场景

GUITester的研究成果可广泛应用于软件测试领域，尤其是在GUI质量保证方面。通过减少人工干预，该框架能够提高测试效率，降低成本，并为软件开发生命周期中的缺陷发现提供支持，具有重要的实际价值和潜在影响。

📄 摘要（原文）

Exploratory GUI testing is essential for software quality but suffers from high manual costs. While Multi-modal Large Language Model (MLLM) agents excel in navigation, they fail to autonomously discover defects due to two core challenges: \textit{Goal-Oriented Masking}, where agents prioritize task completion over reporting anomalies, and \textit{Execution-Bias Attribution}, where system defects are misidentified as agent errors. To address these, we first introduce \textbf{GUITestBench}, the first interactive benchmark for this task, featuring 143 tasks across 26 defects. We then propose \textbf{GUITester}, a multi-agent framework that decouples navigation from verification via two modules: (i) a \textit{Planning-Execution Module (PEM)} that proactively probes for defects via embedded testing intents, and (ii) a \textit{Hierarchical Reflection Module (HRM)} that resolves attribution ambiguity through interaction history analysis. GUITester achieves an F1-score of 48.90\% (Pass@3) on GUITestBench, outperforming state-of-the-art baselines (33.35\%). Our work demonstrates the feasibility of autonomous exploratory testing and provides a robust foundation for future GUI quality assurance~\footnote{Our code is now available in~\href{https://github.com/ADaM-BJTU/GUITestBench}{https://github.com/ADaM-BJTU/GUITestBench}}.

GUITester: Enabling GUI Agents for Exploratory Defect Discovery

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册