VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks

作者: Beitong Zhou, Zhexiao Huang, Yuan Guo, Zhangxuan Gu, Tianyu Xia, Zichen Luo, Fei Tang, Dehan Kong, Yanyi Shang, Suling Ou, Zhenlin Guo, Changhua Meng, Shuheng Shen

分类: cs.CV

发布日期: 2025-12-18

💡 一句话要点

VenusBench-GD：一个用于多样化Grounding任务的综合性多平台GUI基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: GUI grounding 多平台基准 用户界面 多模态学习 分层任务 基准数据集 GUI代理

📋 核心要点

现有GUI grounding基准数据量不足、领域覆盖窄，或过度依赖单一平台和专业知识，限制了GUI代理的发展。
VenusBench-GD构建大规模跨平台GUI基准，包含多样UI元素和丰富标注，并设计分层任务分类法。
实验表明通用多模态模型在基础任务上可媲美专用GUI模型，但高级任务仍需专用模型，且存在过拟合问题。

📝 摘要（中文）

GUI grounding是构建强大GUI代理的关键组成部分。然而，现有的grounding基准存在显著的局限性：它们要么提供的数据量不足且领域覆盖范围狭窄，要么过度关注单一平台并需要高度专业化的领域知识。本文提出了VenusBench-GD，这是一个综合性的、双语的GUI grounding基准，它跨越多个平台，能够对真实世界的应用程序进行分层评估。VenusBench-GD的贡献如下：（i）我们引入了一个大规模的、跨平台的基准，它广泛覆盖了应用程序、多样化的UI元素和丰富的标注数据；（ii）我们建立了一个高质量的数据构建流程，用于grounding任务，实现了比现有基准更高的标注准确率；（iii）我们通过提出一个分层任务分类法来扩展元素grounding的范围，该分类法将grounding分为基本和高级类别，包含六个不同的子任务，旨在从互补的角度评估模型。我们的实验结果揭示了关键的见解：通用多模态模型现在在基本grounding任务上匹配甚至超过了专门的GUI模型。相比之下，高级任务仍然偏爱GUI专用模型，尽管它们表现出显著的过拟合和较差的鲁棒性。这些结果强调了综合性的、多层评估框架的必要性。

🔬 方法详解

问题定义：论文旨在解决现有GUI grounding基准数据集不足、领域覆盖范围有限，以及过度依赖单一平台和专业知识的问题。现有方法的痛点在于无法全面评估和提升GUI代理在真实世界应用中的grounding能力，阻碍了GUI代理的实际应用。

核心思路：论文的核心思路是构建一个大规模、跨平台、多样化的GUI grounding基准数据集VenusBench-GD，并提出一个分层任务分类法，将grounding任务划分为基本和高级类别。通过这种方式，可以更全面地评估模型的grounding能力，并促进GUI grounding技术的发展。

技术框架：VenusBench-GD的构建流程主要包括数据收集、数据标注和任务划分三个阶段。数据收集阶段，从多个平台收集大量的GUI应用程序数据。数据标注阶段，采用高质量的数据标注流程，确保标注的准确性。任务划分阶段，将grounding任务划分为基本和高级类别，并设计了六个不同的子任务。

关键创新：论文的关键创新在于构建了一个大规模、跨平台的GUI grounding基准数据集VenusBench-GD，并提出了一个分层任务分类法。该基准数据集和任务分类法能够更全面地评估模型的grounding能力，并促进GUI grounding技术的发展。此外，论文还发现通用多模态模型在基础任务上表现良好，但在高级任务上仍需专用GUI模型。

关键设计：VenusBench-GD包含来自多个平台的GUI应用程序数据，涵盖了各种UI元素。数据标注采用多轮审核机制，确保标注的准确性。分层任务分类法将grounding任务划分为基本和高级类别，并设计了六个不同的子任务，包括元素定位、属性识别、关系推理等。具体的参数设置、损失函数和网络结构等技术细节未在摘要中详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，通用多模态模型在基本grounding任务上能够匹配甚至超过专门的GUI模型。然而，高级任务仍然需要GUI专用模型，但这些模型存在显著的过拟合和鲁棒性问题。这些发现强调了全面、多层次评估框架的必要性，并为未来的研究方向提供了指导。

🎯 应用场景

VenusBench-GD可用于训练和评估各种GUI代理，例如自动化测试工具、辅助技术和智能助手。该基准数据集能够促进GUI grounding技术的发展，提高GUI代理的智能化水平，从而在软件开发、用户体验和可访问性等领域产生广泛的应用价值和深远影响。

📄 摘要（原文）

GUI grounding is a critical component in building capable GUI agents. However, existing grounding benchmarks suffer from significant limitations: they either provide insufficient data volume and narrow domain coverage, or focus excessively on a single platform and require highly specialized domain knowledge. In this work, we present VenusBench-GD, a comprehensive, bilingual benchmark for GUI grounding that spans multiple platforms, enabling hierarchical evaluation for real-word applications. VenusBench-GD contributes as follows: (i) we introduce a large-scale, cross-platform benchmark with extensive coverage of applications, diverse UI elements, and rich annotated data, (ii) we establish a high-quality data construction pipeline for grounding tasks, achieving higher annotation accuracy than existing benchmarks, and (iii) we extend the scope of element grounding by proposing a hierarchical task taxonomy that divides grounding into basic and advanced categories, encompassing six distinct subtasks designed to evaluate models from complementary perspectives. Our experimental findings reveal critical insights: general-purpose multimodal models now match or even surpass specialized GUI models on basic grounding tasks. In contrast, advanced tasks, still favor GUI-specialized models, though they exhibit significant overfitting and poor robustness. These results underscore the necessity of comprehensive, multi-tiered evaluation frameworks.

VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理