VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks

作者: Beitong Zhou, Zhexiao Huang, Yuan Guo, Zhangxuan Gu, Tianyu Xia, Zichen Luo, Fei Tang, Dehan Kong, Yanyi Shang, Suling Ou, Zhenlin Guo, Changhua Meng, Shuheng Shen

分类: cs.CV

发布日期: 2025-12-18

💡 一句话要点

提出VenusBench-GD，一个全面的多平台GUI基准，用于评估多样化的Grounding任务。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: GUI grounding 多平台基准 用户界面 多模态学习 分层任务 数据集构建 人机交互

📋 核心要点

现有GUI grounding基准数据量不足、领域覆盖窄，或过度关注单一平台，限制了GUI代理的开发。
VenusBench-GD构建大规模跨平台GUI基准，包含丰富的UI元素和标注数据，并提出分层任务分类法。
实验表明通用多模态模型在基础任务上表现优异，但高级任务仍需GUI专用模型，存在过拟合问题。

📝 摘要（中文）

GUI grounding是构建强大GUI代理的关键组成部分。然而，现有的grounding基准存在显著的局限性：它们要么提供的数据量不足且领域覆盖范围狭窄，要么过度关注单一平台并需要高度专业的领域知识。本文提出了VenusBench-GD，这是一个全面的、双语的GUI grounding基准，涵盖多个平台，能够对真实世界的应用程序进行分层评估。VenusBench-GD的贡献如下：（i）引入了一个大规模、跨平台的基准，具有广泛的应用程序覆盖、多样的UI元素和丰富的标注数据；（ii）建立了一个高质量的数据构建流程，用于grounding任务，实现了比现有基准更高的标注准确率；（iii）通过提出一个分层任务分类法，扩展了元素grounding的范围，该分类法将grounding分为基本和高级类别，包含六个不同的子任务，旨在从互补的角度评估模型。实验结果揭示了关键的见解：通用多模态模型现在在基本grounding任务上与专门的GUI模型相匹配甚至超越。相比之下，高级任务仍然偏爱GUI专用模型，尽管它们表现出显著的过拟合和较差的鲁棒性。这些结果强调了全面、多层评估框架的必要性。

🔬 方法详解

问题定义：论文旨在解决现有GUI grounding基准数据集不足、领域覆盖范围有限以及平台单一的问题。现有方法难以有效评估和提升GUI代理在真实世界应用中的grounding能力，尤其是在跨平台和复杂交互场景下。现有基准的标注质量也存在问题，影响了模型训练和评估的可靠性。

核心思路：论文的核心思路是构建一个大规模、跨平台、高质量的GUI grounding基准数据集，并提出一个分层的任务分类体系，从而更全面地评估模型的grounding能力。通过引入多样化的UI元素和应用场景，以及高质量的人工标注，提高数据集的代表性和可靠性。分层任务分类法旨在区分模型在基础和高级grounding任务上的表现，从而更深入地了解模型的优势和不足。

技术框架：VenusBench-GD的构建流程主要包括以下几个阶段：1) 数据收集：从多个平台（例如Android、iOS、Web）收集GUI应用程序的截图和UI元素信息。2) 数据标注：对UI元素进行详细的标注，包括元素类型、位置、文本内容等。采用高质量的标注流程，确保标注的准确性和一致性。3) 任务定义：将grounding任务分为基本和高级类别，并定义六个不同的子任务，例如元素定位、关系推理等。4) 基准测试：在VenusBench-GD上评估现有模型的性能，并分析实验结果。

关键创新：VenusBench-GD的关键创新点在于：1) 大规模跨平台数据集：提供了比现有基准更广泛的应用程序覆盖和更多样化的UI元素。2) 高质量数据构建流程：通过严格的标注流程和质量控制，提高了数据集的标注准确率。3) 分层任务分类法：将grounding任务分为基本和高级类别，从而更全面地评估模型的grounding能力。

关键设计：VenusBench-GD的数据集包含多种类型的UI元素，例如按钮、文本框、图像等。标注信息包括元素的类型、位置、文本内容、父子关系等。分层任务分类法包括以下六个子任务：1) 元素定位：根据文本描述定位UI元素。2) 属性识别：识别UI元素的属性，例如颜色、大小等。3) 关系推理：推理UI元素之间的关系，例如包含、相邻等。4) 状态理解：理解UI元素的状态，例如激活、禁用等。5) 动作预测：预测用户在GUI上的下一步动作。6) 复杂交互：处理涉及多个UI元素的复杂交互。

🖼️ 关键图片

📊 实验亮点

实验结果表明，通用多模态模型在基本grounding任务上与GUI专用模型性能相当甚至超越，但在高级任务上，GUI专用模型仍然更胜一筹，但存在过拟合和鲁棒性问题。VenusBench-GD的评估结果揭示了现有模型在不同类型grounding任务上的优缺点，为未来的研究方向提供了指导。

🎯 应用场景

VenusBench-GD可应用于开发更智能、更强大的GUI代理，例如自动化测试工具、辅助技术和人机交互系统。该基准能够促进跨平台GUI理解和交互的研究，帮助提升用户体验，并为残疾人士提供更好的辅助功能。未来，该研究可扩展到更复杂的GUI环境，并支持更高级的交互任务。

📄 摘要（原文）

GUI grounding is a critical component in building capable GUI agents. However, existing grounding benchmarks suffer from significant limitations: they either provide insufficient data volume and narrow domain coverage, or focus excessively on a single platform and require highly specialized domain knowledge. In this work, we present VenusBench-GD, a comprehensive, bilingual benchmark for GUI grounding that spans multiple platforms, enabling hierarchical evaluation for real-word applications. VenusBench-GD contributes as follows: (i) we introduce a large-scale, cross-platform benchmark with extensive coverage of applications, diverse UI elements, and rich annotated data, (ii) we establish a high-quality data construction pipeline for grounding tasks, achieving higher annotation accuracy than existing benchmarks, and (iii) we extend the scope of element grounding by proposing a hierarchical task taxonomy that divides grounding into basic and advanced categories, encompassing six distinct subtasks designed to evaluate models from complementary perspectives. Our experimental findings reveal critical insights: general-purpose multimodal models now match or even surpass specialized GUI models on basic grounding tasks. In contrast, advanced tasks, still favor GUI-specialized models, though they exhibit significant overfitting and poor robustness. These results underscore the necessity of comprehensive, multi-tiered evaluation frameworks.

VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册