VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks
作者: Beitong Zhou, Zhexiao Huang, Yuan Guo, Zhangxuan Gu, Tianyu Xia, Zichen Luo, Fei Tang, Dehan Kong, Yanyi Shang, Suling Ou, Zhenlin Guo, Changhua Meng, Shuheng Shen
分类: cs.CV
发布日期: 2025-12-18
💡 一句话要点
VenusBench-GD:一个用于多样化Grounding任务的综合性多平台GUI基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: GUI grounding 多平台基准 用户界面 多模态学习 分层任务 基准数据集 GUI代理
📋 核心要点
- 现有GUI grounding基准数据量不足、领域覆盖窄,或过度依赖单一平台和专业知识,限制了GUI代理的发展。
- VenusBench-GD构建大规模跨平台GUI基准,包含多样UI元素和丰富标注,并设计分层任务分类法。
- 实验表明通用多模态模型在基础任务上可媲美专用GUI模型,但高级任务仍需专用模型,且存在过拟合问题。
📝 摘要(中文)
GUI grounding是构建强大GUI代理的关键组成部分。然而,现有的grounding基准存在显著的局限性:它们要么提供的数据量不足且领域覆盖范围狭窄,要么过度关注单一平台并需要高度专业化的领域知识。本文提出了VenusBench-GD,这是一个综合性的、双语的GUI grounding基准,它跨越多个平台,能够对真实世界的应用程序进行分层评估。VenusBench-GD的贡献如下:(i)我们引入了一个大规模的、跨平台的基准,它广泛覆盖了应用程序、多样化的UI元素和丰富的标注数据;(ii)我们建立了一个高质量的数据构建流程,用于grounding任务,实现了比现有基准更高的标注准确率;(iii)我们通过提出一个分层任务分类法来扩展元素grounding的范围,该分类法将grounding分为基本和高级类别,包含六个不同的子任务,旨在从互补的角度评估模型。我们的实验结果揭示了关键的见解:通用多模态模型现在在基本grounding任务上匹配甚至超过了专门的GUI模型。相比之下,高级任务仍然偏爱GUI专用模型,尽管它们表现出显著的过拟合和较差的鲁棒性。这些结果强调了综合性的、多层评估框架的必要性。
🔬 方法详解
问题定义:论文旨在解决现有GUI grounding基准数据集不足、领域覆盖范围有限,以及过度依赖单一平台和专业知识的问题。现有方法的痛点在于无法全面评估和提升GUI代理在真实世界应用中的grounding能力,阻碍了GUI代理的实际应用。
核心思路:论文的核心思路是构建一个大规模、跨平台、多样化的GUI grounding基准数据集VenusBench-GD,并提出一个分层任务分类法,将grounding任务划分为基本和高级类别。通过这种方式,可以更全面地评估模型的grounding能力,并促进GUI grounding技术的发展。
技术框架:VenusBench-GD的构建流程主要包括数据收集、数据标注和任务划分三个阶段。数据收集阶段,从多个平台收集大量的GUI应用程序数据。数据标注阶段,采用高质量的数据标注流程,确保标注的准确性。任务划分阶段,将grounding任务划分为基本和高级类别,并设计了六个不同的子任务。
关键创新:论文的关键创新在于构建了一个大规模、跨平台的GUI grounding基准数据集VenusBench-GD,并提出了一个分层任务分类法。该基准数据集和任务分类法能够更全面地评估模型的grounding能力,并促进GUI grounding技术的发展。此外,论文还发现通用多模态模型在基础任务上表现良好,但在高级任务上仍需专用GUI模型。
关键设计:VenusBench-GD包含来自多个平台的GUI应用程序数据,涵盖了各种UI元素。数据标注采用多轮审核机制,确保标注的准确性。分层任务分类法将grounding任务划分为基本和高级类别,并设计了六个不同的子任务,包括元素定位、属性识别、关系推理等。具体的参数设置、损失函数和网络结构等技术细节未在摘要中详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,通用多模态模型在基本grounding任务上能够匹配甚至超过专门的GUI模型。然而,高级任务仍然需要GUI专用模型,但这些模型存在显著的过拟合和鲁棒性问题。这些发现强调了全面、多层次评估框架的必要性,并为未来的研究方向提供了指导。
🎯 应用场景
VenusBench-GD可用于训练和评估各种GUI代理,例如自动化测试工具、辅助技术和智能助手。该基准数据集能够促进GUI grounding技术的发展,提高GUI代理的智能化水平,从而在软件开发、用户体验和可访问性等领域产生广泛的应用价值和深远影响。
📄 摘要(原文)
GUI grounding is a critical component in building capable GUI agents. However, existing grounding benchmarks suffer from significant limitations: they either provide insufficient data volume and narrow domain coverage, or focus excessively on a single platform and require highly specialized domain knowledge. In this work, we present VenusBench-GD, a comprehensive, bilingual benchmark for GUI grounding that spans multiple platforms, enabling hierarchical evaluation for real-word applications. VenusBench-GD contributes as follows: (i) we introduce a large-scale, cross-platform benchmark with extensive coverage of applications, diverse UI elements, and rich annotated data, (ii) we establish a high-quality data construction pipeline for grounding tasks, achieving higher annotation accuracy than existing benchmarks, and (iii) we extend the scope of element grounding by proposing a hierarchical task taxonomy that divides grounding into basic and advanced categories, encompassing six distinct subtasks designed to evaluate models from complementary perspectives. Our experimental findings reveal critical insights: general-purpose multimodal models now match or even surpass specialized GUI models on basic grounding tasks. In contrast, advanced tasks, still favor GUI-specialized models, though they exhibit significant overfitting and poor robustness. These results underscore the necessity of comprehensive, multi-tiered evaluation frameworks.