MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents

📄 arXiv: 2507.19478v1 📥 PDF

作者: Xuehui Wang, Zhenyu Wu, JingJing Xie, Zichen Ding, Bowen Yang, Zehao Li, Zhaoyang Liu, Qingyun Li, Xuan Dong, Zhe Chen, Weiyun Wang, Xiangyu Zhao, Jixuan Chen, Haodong Duan, Tianbao Xie, Chenyu Yang, Shiqian Su, Yue Yu, Yuan Huang, Yiqian Liu, Xiao Zhang, Yanting Zhang, Xiangyu Yue, Weijie Su, Xizhou Zhu, Wei Shen, Jifeng Dai, Wenhai Wang

分类: cs.CV, cs.CL

发布日期: 2025-07-25

备注: in progress

🔗 代码/项目: GITHUB


💡 一句话要点

MMBench-GUI:用于GUI智能体的分层多平台评估框架,提升自动化效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: GUI自动化 多平台评估 分层基准 效率评估 可视化定位 任务规划 机器人流程自动化

📋 核心要点

  1. 现有GUI自动化智能体缺乏统一的多平台评估基准,难以衡量其在不同操作系统和应用场景下的性能。
  2. MMBench-GUI构建了一个分层评估体系,包含GUI内容理解、元素定位、任务自动化和任务协作四个层级,全面评估智能体能力。
  3. 实验表明,精确的可视化定位是任务成功的关键,模块化框架和有效的任务规划对于提升GUI自动化效率至关重要。

📝 摘要(中文)

本文提出了MMBench-GUI,一个用于评估GUI自动化智能体的分层基准,覆盖Windows、macOS、Linux、iOS、Android和Web平台。它包含四个层级:GUI内容理解、元素定位、任务自动化和任务协作,涵盖了GUI智能体的基本技能。此外,本文还提出了一种新的效率-质量面积(EQA)指标,用于评估在线自动化场景中GUI智能体的执行效率。通过MMBench-GUI,我们发现精确的可视化定位是整体任务成功的关键决定因素,强调了集成专用定位模块的模块化框架的巨大优势。此外,为了实现可靠的GUI自动化,智能体需要强大的任务规划和跨平台泛化能力,其中长上下文记忆、广泛的动作空间和长期推理起着关键作用。更重要的是,任务效率仍然是一个严重未被探索的维度,所有模型都存在严重的效率低下问题,即使在最终完成任务时也会出现过多的冗余步骤。精确的定位、有效的规划和提前停止策略的集成对于实现真正高效和可扩展的GUI自动化是必不可少的。我们的基准代码、评估数据和运行环境将在https://github.com/open-compass/MMBench-GUI上公开。

🔬 方法详解

问题定义:现有GUI自动化智能体在跨平台环境下的性能评估缺乏统一标准,难以有效衡量和比较不同智能体的能力。现有方法在任务效率方面存在不足,常常出现冗余步骤,影响实际应用。

核心思路:MMBench-GUI的核心思路是构建一个分层、多平台的评估基准,全面评估GUI智能体在不同层级上的能力,并引入效率-质量面积(EQA)指标来衡量任务执行效率。通过分析评估结果,找出影响GUI自动化性能的关键因素。

技术框架:MMBench-GUI包含四个主要层级: 1. GUI内容理解:评估智能体对GUI界面元素的识别和理解能力。 2. 元素定位:评估智能体在GUI界面中精确定位目标元素的能力。 3. 任务自动化:评估智能体根据任务目标自动执行GUI操作的能力。 4. 任务协作:评估智能体在多智能体协作完成复杂GUI任务的能力。

关键创新:MMBench-GUI的关键创新在于: 1. 分层评估体系:将GUI自动化任务分解为多个层级,可以更细粒度地评估智能体的能力。 2. 多平台支持:支持Windows、macOS、Linux、iOS、Android和Web等多个平台,更贴近实际应用场景。 3. 效率-质量面积(EQA)指标:综合考虑任务完成质量和执行效率,更全面地评估智能体的性能。

关键设计:MMBench-GUI的关键设计包括: 1. 任务设计:设计了涵盖不同难度和类型的GUI自动化任务,以全面评估智能体的能力。 2. 评估指标:除了传统的任务成功率,还引入了EQA指标来衡量任务执行效率。 3. 平台适配:针对不同平台,设计了相应的GUI界面和操作方式,以保证评估的公平性和有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,精确的可视化定位是GUI自动化任务成功的关键因素。模块化框架,特别是集成专用定位模块的框架,能够显著提升任务成功率。此外,实验还发现,现有GUI自动化智能体在任务效率方面存在较大提升空间,需要进一步优化任务规划和执行策略。

🎯 应用场景

MMBench-GUI可应用于开发和评估各种GUI自动化智能体,例如RPA(机器人流程自动化)工具、自动化测试工具、辅助技术等。该基准有助于提升GUI自动化智能体的性能和效率,使其能够更好地应用于实际场景,例如自动化办公、软件测试、用户辅助等,从而提高生产效率和用户体验。

📄 摘要(原文)

We introduce MMBench-GUI, a hierarchical benchmark for evaluating GUI automation agents across Windows, macOS, Linux, iOS, Android, and Web platforms. It comprises four levels: GUI Content Understanding, Element Grounding, Task Automation, and Task Collaboration, covering essential skills for GUI agents. In addition, we propose a novel Efficiency-Quality Area (EQA) metric to assess GUI agent execution efficiency in online automation scenarios. Through MMBench-GUI, we identify accurate visual grounding as a critical determinant of overall task success, emphasizing the substantial benefits of modular frameworks that integrate specialized grounding modules. Furthermore, to achieve reliable GUI automation, an agent requires strong task planning and cross-platform generalization abilities, with long-context memory, a broad action space, and long-term reasoning playing a critical role. More important, task efficiency remains a critically underexplored dimension, and all models suffer from substantial inefficiencies, with excessive redundant steps even when tasks are ultimately completed. The integration of precise localization, effective planning, and early stopping strategies is indispensable to enable truly efficient and scalable GUI automation. Our benchmark code, evaluation data, and running environment will be publicly available at https://github.com/open-compass/MMBench-GUI.