MobileBench-OL: A Comprehensive Chinese Benchmark for Evaluating Mobile GUI Agents in Real-World Environment
作者: Qinzhuo Wu, Zhizhuo Yang, Hanhao Li, Pengzhi Gao, Wei Liu, Jian Luan
分类: cs.CL, cs.AI
发布日期: 2026-01-28
💡 一句话要点
MobileBench-OL:一个全面的中文移动GUI Agent真实环境评测基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 移动GUI Agent 在线评测基准 真实环境 任务执行 复杂推理 噪声鲁棒性 自动化测试
📋 核心要点
- 现有在线GUI Agent评测基准侧重于指令遵循,忽略了推理、探索能力以及真实环境中的噪声。
- MobileBench-OL通过包含多维度评估子集,衡量Agent的任务执行、复杂推理和噪声鲁棒性。
- 实验表明,现有GUI Agent在MobileBench-OL上表现与真实环境需求存在差距,有待提升。
📝 摘要(中文)
移动图形用户界面(GUI)Agent的最新进展凸显了对全面评估基准日益增长的需求。虽然新的在线基准比离线基准提供更真实的测试,但它们往往侧重于Agent的任务指令遵循能力,而忽略了它们的推理和探索能力。此外,这些基准没有考虑到真实移动环境中的随机噪声。这导致了基准与真实环境之间的差距。为了解决这些限制,我们提出了MobileBench-OL,一个包含来自80个中文应用程序的1080个任务的在线基准。它通过包括5个子集来衡量Agent的任务执行、复杂推理和噪声鲁棒性,这些子集设置了多个评估维度。我们还提供了一个带有重置机制的自动评估框架,从而实现稳定和可重复的真实环境基准测试。在MobileBench-OL上评估12个领先的GUI Agent表明,要满足真实世界的需求,还有很大的改进空间。人工评估进一步证实,MobileBench-OL可以可靠地衡量领先的GUI Agent在真实环境中的性能。我们的数据和代码将在接收后发布。
🔬 方法详解
问题定义:现有移动GUI Agent的在线评测基准主要关注Agent对指令的执行能力,而忽略了Agent在复杂环境下的推理能力、探索能力以及对噪声的鲁棒性。此外,现有基准与真实世界的移动环境存在差距,难以准确评估Agent的实际性能。
核心思路:MobileBench-OL的核心思路是构建一个更全面、更贴近真实环境的在线评测基准,该基准不仅评估Agent的任务执行能力,还评估其推理能力、探索能力以及对噪声的鲁棒性。通过多维度的评估,更准确地反映Agent在真实环境中的性能。
技术框架:MobileBench-OL包含以下几个主要组成部分:1) 任务集:包含来自80个中文App的1080个任务,覆盖多种场景和任务类型。2) 评估子集:包含5个子集,分别评估任务执行、复杂推理和噪声鲁棒性。3) 自动评估框架:提供一个带有重置机制的自动评估框架,实现稳定和可重复的真实环境基准测试。
关键创新:MobileBench-OL的关键创新在于其全面性和真实性。它不仅考虑了Agent的任务执行能力,还考虑了其推理能力、探索能力以及对噪声的鲁棒性。此外,MobileBench-OL的任务来自真实的中文App,更贴近真实环境。
关键设计:MobileBench-OL的关键设计包括:1) 任务选择:选择具有代表性的中文App和任务,覆盖多种场景和任务类型。2) 评估指标:设计合理的评估指标,全面衡量Agent的性能。3) 噪声模拟:在评估过程中引入随机噪声,模拟真实环境中的干扰。
🖼️ 关键图片
📊 实验亮点
在MobileBench-OL上对12个领先的GUI Agent进行评估,结果表明,现有Agent在任务执行、复杂推理和噪声鲁棒性方面仍有很大的提升空间。人工评估进一步验证了MobileBench-OL能够可靠地衡量Agent在真实环境中的性能,为Agent的改进提供了有价值的参考。
🎯 应用场景
MobileBench-OL可用于评估和改进移动GUI Agent的性能,推动Agent在自动化测试、智能助手、辅助功能等领域的应用。通过该基准,研究人员可以更准确地了解Agent的优缺点,从而开发出更智能、更可靠的Agent,提升用户体验。
📄 摘要(原文)
Recent advances in mobile Graphical User Interface (GUI) agents highlight the growing need for comprehensive evaluation benchmarks. While new online benchmarks offer more realistic testing than offline ones, they tend to focus on the agents' task instruction-following ability while neglecting their reasoning and exploration ability. Moreover, these benchmarks do not consider the random noise in real-world mobile environments. This leads to a gap between benchmarks and real-world environments. To addressing these limitations, we propose MobileBench-OL, an online benchmark with 1080 tasks from 80 Chinese apps. It measures task execution, complex reasoning, and noise robustness of agents by including 5 subsets, which set multiple evaluation dimensions. We also provide an auto-eval framework with a reset mechanism, enabling stable and repeatable real-world benchmarking. Evaluating 12 leading GUI agents on MobileBench-OL shows significant room for improvement to meet real-world requirements. Human evaluation further confirms that MobileBench-OL can reliably measure the performance of leading GUI agents in real environments. Our data and code will be released upon acceptance.