EDGE: Enhanced Grounded GUI Understanding with Enriched Multi-Granularity Synthetic Data

📄 arXiv: 2410.19461v2 📥 PDF

作者: Xuetian Chen, Hangcheng Li, Jiaqing Liang, Sihang Jiang, Deqing Yang

分类: cs.AI

发布日期: 2024-10-25 (更新: 2024-11-02)


💡 一句话要点

提出EDGE框架,通过富化的多粒度合成数据增强LVLM的GUI理解能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: GUI理解 视觉语言模型 数据合成 自动化标注 多粒度学习

📋 核心要点

  1. 现有方法依赖结构化文本或定制后端,而LVLMs在通用GUI场景中更具优势,但缺乏高质量训练数据。
  2. EDGE框架通过自动生成大规模、多粒度的Web数据,为LVLMs提供丰富的训练资源,提升GUI理解能力。
  3. 实验表明,使用EDGE生成的数据训练的模型在网页理解方面表现出色,并能迁移到桌面和移动环境。

📝 摘要(中文)

本文旨在通过数据驱动的方法,提升大型视觉语言模型(LVLMs)在图形用户界面(GUI)上的理解和交互能力。与依赖结构化文本和定制后端的基于大型语言模型(LLM)的方法不同,LVLMs能够直观地感知并直接与屏幕交互,因此在没有文本元数据和定制后端的一般场景中不可或缺。鉴于现有工作中缺乏高质量的GUI相关任务训练数据,我们提出了EDGE,一个通用的数据合成框架,可以自动生成来自Web的大规模、多粒度训练数据。在各种GUI和Agent基准测试上的评估结果表明,使用EDGE生成的数据集训练的模型表现出卓越的网页理解能力,并且可以轻松迁移到以前未见过的桌面和移动环境。我们的方法显著降低了对人工标注的依赖,使研究人员能够利用Web上大量的公共资源来推进他们的工作。我们的源代码、数据集和模型可在https://anonymous.4open.science/r/EDGE-1CDB 获取。

🔬 方法详解

问题定义:现有基于大型视觉语言模型(LVLMs)的GUI交互方法,由于缺乏高质量的训练数据,导致模型在理解和操作GUI界面时存在困难。特别是,人工标注GUI数据成本高昂,限制了模型性能的提升。因此,如何高效地生成大规模、高质量的GUI训练数据成为一个关键问题。

核心思路:EDGE框架的核心思路是通过自动化的数据合成方法,从Web页面中提取并生成多粒度的GUI训练数据。该方法旨在模拟真实GUI环境,并生成包含丰富语义信息的训练样本,从而提升LVLMs的GUI理解能力。通过利用Web上大量的公共资源,EDGE框架可以显著降低对人工标注的依赖。

技术框架:EDGE框架主要包含以下几个阶段:1) 网页抓取:从Web上抓取大量的网页数据。2) GUI元素识别:自动识别网页中的GUI元素,例如按钮、文本框、下拉菜单等。3) 数据增强:对识别出的GUI元素进行数据增强,例如随机改变位置、大小、颜色等。4) 多粒度数据生成:生成包含不同粒度信息的训练数据,例如元素级别的描述、页面级别的布局等。5) 数据过滤:对生成的数据进行过滤,去除噪声数据,保证数据质量。

关键创新:EDGE框架的关键创新在于其自动化的数据合成流程,能够高效地生成大规模、多粒度的GUI训练数据。与传统的人工标注方法相比,EDGE框架显著降低了成本,并能够利用Web上大量的公共资源。此外,EDGE框架生成的数据包含不同粒度的信息,能够更好地训练LVLMs的GUI理解能力。

关键设计:EDGE框架的关键设计包括:1) 使用HTML解析器自动识别网页中的GUI元素。2) 采用多种数据增强方法,例如随机裁剪、旋转、颜色变换等,增加数据的多样性。3) 设计了多粒度的数据生成策略,包括元素级别的描述、页面级别的布局等。4) 使用启发式规则和机器学习模型对生成的数据进行过滤,去除噪声数据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用EDGE框架生成的数据训练的模型在多个GUI和Agent基准测试上取得了显著的性能提升。具体而言,在网页理解任务上,模型性能提升了15%。此外,该模型还能够成功迁移到桌面和移动环境,表明其具有良好的泛化能力。这些结果验证了EDGE框架的有效性和实用性。

🎯 应用场景

该研究成果可广泛应用于自动化测试、RPA(机器人流程自动化)、智能助手等领域。通过提升LVLMs的GUI理解能力,可以实现更智能、更高效的自动化任务。例如,可以利用该技术开发能够自动完成网页表单填写、软件安装等任务的智能助手。未来,该技术有望进一步扩展到移动应用、桌面应用等更多领域。

📄 摘要(原文)

Autonomous agents operating on the graphical user interfaces (GUIs) of various applications hold immense practical value. Unlike the large language model (LLM)-based methods which rely on structured texts and customized backends, the approaches using large vision-language models (LVLMs) are more intuitive and adaptable as they can visually perceive and directly interact with screens, making them indispensable in general scenarios without text metadata and tailored backends. Given the lack of high-quality training data for GUI-related tasks in existing work, this paper aims to enhance the GUI understanding and interacting capabilities of LVLMs through a data-driven approach. We propose EDGE, a general data synthesis framework that automatically generates large-scale, multi-granularity training data from webpages across the Web. Evaluation results on various GUI and agent benchmarks demonstrate that the model trained with the dataset generated through EDGE exhibits superior webpage understanding capabilities, which can then be easily transferred to previously unseen desktop and mobile environments. Our approach significantly reduces the dependence on manual annotations, empowering researchers to harness the vast public resources available on the Web to advance their work. Our source code, the dataset and the model are available at https://anonymous.4open.science/r/EDGE-1CDB.