GUITester: Enabling GUI Agents for Exploratory Defect Discovery

作者: Yifei Gao, Jiang Wu, Xiaoyi Chen, Yifan Yang, Zhe Cui, Tianyi Ma, Jiaming Zhang, Jitao Sang

分类: cs.AI

发布日期: 2026-01-08

🔗 代码/项目: GITHUB

💡 一句话要点

提出GUITester以解决GUI缺陷自主发现问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: GUI测试 缺陷发现 多模态大语言模型 自主测试 软件质量保证

📋 核心要点

现有的多模态大语言模型在GUI测试中无法自主发现缺陷，主要受限于目标导向掩蔽和执行偏差归因问题。
本文提出GUITester，通过规划执行模块和层次反思模块，将导航与缺陷验证解耦，以提高缺陷发现能力。
GUITester在GUITestBench基准测试中取得了48.90%的F1分数，显著优于现有方法的33.35%，展示了其有效性。

📝 摘要（中文）

探索性GUI测试对软件质量至关重要，但人工成本高昂。现有的多模态大语言模型（MLLM）代理在导航方面表现出色，但由于目标导向掩蔽和执行偏差归因等挑战，无法自主发现缺陷。为此，本文首次引入GUITestBench，这是一个包含143个任务和26种缺陷的交互式基准测试。我们提出了GUITester，一个多代理框架，通过规划执行模块（PEM）和层次反思模块（HRM）将导航与验证解耦。GUITester在GUITestBench上实现了48.90%的F1分数（Pass@3），超越了现有的基线（33.35%）。我们的工作展示了自主探索测试的可行性，并为未来的GUI质量保证奠定了坚实基础。

🔬 方法详解

问题定义：本文旨在解决现有多模态大语言模型在探索性GUI测试中无法自主发现缺陷的问题。现有方法面临目标导向掩蔽，代理优先完成任务而忽视缺陷报告，以及执行偏差归因，系统缺陷被误认为是代理错误的挑战。

核心思路：我们提出GUITester，通过引入规划执行模块（PEM）和层次反思模块（HRM），将导航与缺陷验证解耦。PEM通过嵌入测试意图主动探测缺陷，而HRM通过分析交互历史解决归因模糊性。

技术框架：GUITester的整体架构包含两个主要模块：规划执行模块（PEM）和层次反思模块（HRM）。PEM负责缺陷探测，HRM则负责分析和归因。两者协同工作，提升了缺陷发现的准确性和效率。

关键创新：GUITester的核心创新在于将导航与验证解耦，首次实现了自主探索测试的能力。通过引入交互历史分析，HRM有效解决了执行偏差归因的问题，显著提高了缺陷发现的准确性。

关键设计：在设计中，PEM嵌入了测试意图以引导缺陷探测，HRM则利用交互历史数据进行分析。具体的参数设置和损失函数设计未在摘要中详细说明，需参考完整论文以获取更多技术细节。

📊 实验亮点

GUITester在GUITestBench基准测试中实现了48.90%的F1分数（Pass@3），相比于现有的基线（33.35%）有显著提升，展示了其在自主探索性GUI测试中的有效性和潜力。

🎯 应用场景

该研究的潜在应用领域包括软件测试、质量保证和自动化测试工具的开发。GUITester为自主探索性GUI测试提供了新的思路，能够显著降低人工成本，提高缺陷发现的效率和准确性，未来可能在软件开发生命周期中发挥重要作用。

📄 摘要（原文）

Exploratory GUI testing is essential for software quality but suffers from high manual costs. While Multi-modal Large Language Model (MLLM) agents excel in navigation, they fail to autonomously discover defects due to two core challenges: \textit{Goal-Oriented Masking}, where agents prioritize task completion over reporting anomalies, and \textit{Execution-Bias Attribution}, where system defects are misidentified as agent errors. To address these, we first introduce \textbf{GUITestBench}, the first interactive benchmark for this task, featuring 143 tasks across 26 defects. We then propose \textbf{GUITester}, a multi-agent framework that decouples navigation from verification via two modules: (i) a \textit{Planning-Execution Module (PEM)} that proactively probes for defects via embedded testing intents, and (ii) a \textit{Hierarchical Reflection Module (HRM)} that resolves attribution ambiguity through interaction history analysis. GUITester achieves an F1-score of 48.90\% (Pass@3) on GUITestBench, outperforming state-of-the-art baselines (33.35\%). Our work demonstrates the feasibility of autonomous exploratory testing and provides a robust foundation for future GUI quality assurance~\footnote{Our code is now available in~\href{https://github.com/ADaM-BJTU/GUITestBench}{https://github.com/ADaM-BJTU/GUITestBench}}.

GUITester: Enabling GUI Agents for Exploratory Defect Discovery

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理