VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks

📄 arXiv: 2512.16501v1 📥 PDF

作者: Beitong Zhou, Zhexiao Huang, Yuan Guo, Zhangxuan Gu, Tianyu Xia, Zichen Luo, Fei Tang, Dehan Kong, Yanyi Shang, Suling Ou, Zhenlin Guo, Changhua Meng, Shuheng Shen

分类: cs.CV

发布日期: 2025-12-18


💡 一句话要点

VenusBench-GD:一个用于多样化Grounding任务的综合性多平台GUI基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: GUI grounding 多平台基准 用户界面 多模态学习 分层任务 基准数据集 GUI代理

📋 核心要点

  1. 现有GUI grounding基准数据量不足、领域覆盖窄,或过度依赖单一平台和专业知识,限制了GUI代理的发展。
  2. VenusBench-GD构建大规模跨平台GUI基准,包含多样UI元素和丰富标注,并设计分层任务分类法。
  3. 实验表明通用多模态模型在基础任务上可媲美专用GUI模型,但高级任务仍需专用模型,且存在过拟合问题。

📝 摘要(中文)

GUI grounding是构建强大GUI代理的关键组成部分。然而,现有的grounding基准存在显著的局限性:它们要么提供的数据量不足且领域覆盖范围狭窄,要么过度关注单一平台并需要高度专业化的领域知识。本文提出了VenusBench-GD,这是一个综合性的、双语的GUI grounding基准,它跨越多个平台,能够对真实世界的应用程序进行分层评估。VenusBench-GD的贡献如下:(i)我们引入了一个大规模的、跨平台的基准,它广泛覆盖了应用程序、多样化的UI元素和丰富的标注数据;(ii)我们建立了一个高质量的数据构建流程,用于grounding任务,实现了比现有基准更高的标注准确率;(iii)我们通过提出一个分层任务分类法来扩展元素grounding的范围,该分类法将grounding分为基本和高级类别,包含六个不同的子任务,旨在从互补的角度评估模型。我们的实验结果揭示了关键的见解:通用多模态模型现在在基本grounding任务上匹配甚至超过了专门的GUI模型。相比之下,高级任务仍然偏爱GUI专用模型,尽管它们表现出显著的过拟合和较差的鲁棒性。这些结果强调了综合性的、多层评估框架的必要性。

🔬 方法详解

问题定义:论文旨在解决现有GUI grounding基准数据集不足、领域覆盖范围有限,以及过度依赖单一平台和专业知识的问题。现有方法的痛点在于无法全面评估和提升GUI代理在真实世界应用中的grounding能力,阻碍了GUI代理的实际应用。

核心思路:论文的核心思路是构建一个大规模、跨平台、多样化的GUI grounding基准数据集VenusBench-GD,并提出一个分层任务分类法,将grounding任务划分为基本和高级类别。通过这种方式,可以更全面地评估模型的grounding能力,并促进GUI grounding技术的发展。

技术框架:VenusBench-GD的构建流程主要包括数据收集、数据标注和任务划分三个阶段。数据收集阶段,从多个平台收集大量的GUI应用程序数据。数据标注阶段,采用高质量的数据标注流程,确保标注的准确性。任务划分阶段,将grounding任务划分为基本和高级类别,并设计了六个不同的子任务。

关键创新:论文的关键创新在于构建了一个大规模、跨平台的GUI grounding基准数据集VenusBench-GD,并提出了一个分层任务分类法。该基准数据集和任务分类法能够更全面地评估模型的grounding能力,并促进GUI grounding技术的发展。此外,论文还发现通用多模态模型在基础任务上表现良好,但在高级任务上仍需专用GUI模型。

关键设计:VenusBench-GD包含来自多个平台的GUI应用程序数据,涵盖了各种UI元素。数据标注采用多轮审核机制,确保标注的准确性。分层任务分类法将grounding任务划分为基本和高级类别,并设计了六个不同的子任务,包括元素定位、属性识别、关系推理等。具体的参数设置、损失函数和网络结构等技术细节未在摘要中详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,通用多模态模型在基本grounding任务上能够匹配甚至超过专门的GUI模型。然而,高级任务仍然需要GUI专用模型,但这些模型存在显著的过拟合和鲁棒性问题。这些发现强调了全面、多层次评估框架的必要性,并为未来的研究方向提供了指导。

🎯 应用场景

VenusBench-GD可用于训练和评估各种GUI代理,例如自动化测试工具、辅助技术和智能助手。该基准数据集能够促进GUI grounding技术的发展,提高GUI代理的智能化水平,从而在软件开发、用户体验和可访问性等领域产生广泛的应用价值和深远影响。

📄 摘要(原文)

GUI grounding is a critical component in building capable GUI agents. However, existing grounding benchmarks suffer from significant limitations: they either provide insufficient data volume and narrow domain coverage, or focus excessively on a single platform and require highly specialized domain knowledge. In this work, we present VenusBench-GD, a comprehensive, bilingual benchmark for GUI grounding that spans multiple platforms, enabling hierarchical evaluation for real-word applications. VenusBench-GD contributes as follows: (i) we introduce a large-scale, cross-platform benchmark with extensive coverage of applications, diverse UI elements, and rich annotated data, (ii) we establish a high-quality data construction pipeline for grounding tasks, achieving higher annotation accuracy than existing benchmarks, and (iii) we extend the scope of element grounding by proposing a hierarchical task taxonomy that divides grounding into basic and advanced categories, encompassing six distinct subtasks designed to evaluate models from complementary perspectives. Our experimental findings reveal critical insights: general-purpose multimodal models now match or even surpass specialized GUI models on basic grounding tasks. In contrast, advanced tasks, still favor GUI-specialized models, though they exhibit significant overfitting and poor robustness. These results underscore the necessity of comprehensive, multi-tiered evaluation frameworks.