AutoGUI: Scaling GUI Grounding with Automatic Functionality Annotations from LLMs

📄 arXiv: 2502.01977v2 📥 PDF

作者: Hongxin Li, Jingfan Chen, Jingran Su, Yuntao Chen, Qing Li, Zhaoxiang Zhang

分类: cs.CV

发布日期: 2025-02-04 (更新: 2025-06-07)

备注: Accepted to ACL 2025 Main

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

AutoGUI:利用LLM自动标注GUI功能,扩展GUI场景下的VLM应用

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: GUI理解 视觉语言模型 大型语言模型 自动化标注 用户界面 数据集构建 软件自动化

📋 核心要点

  1. 现有UI数据集缺乏大规模且详细的功能描述,限制了VLM在UI理解方面的应用。
  2. AutoGUI利用LLM自动推断UI元素的功能,并通过LLM辅助的拒绝和验证机制提高标注质量。
  3. AutoGUI-704k数据集显著提升了VLM的UI理解能力,并在UI代理任务中展现出潜力。

📝 摘要(中文)

本文提出AutoGUI流程,旨在自动且大规模地为UI元素标注详细的功能描述。现有UI-VLM数据集要么只包含大规模的无上下文元素标注,要么只包含小规模的上下文功能描述。AutoGUI利用大型语言模型(LLM),通过比较模拟交互前后UI状态的变化来推断元素的功能。为了提高标注质量,提出了LLM辅助的拒绝和验证机制,无需人工干预即可消除无效标注。使用该流程构建了一个高质量的AutoGUI-704k数据集,其中包含先前数据集难以提供的多样化和详细的功能标注。人工评估表明,标注的正确性与经过训练的人工标注员相当。大量实验表明,该数据集显著增强了VLM的UI理解能力,并表现出显著的规模效应。此外,还展示了该数据集在UI代理任务中的潜在应用。

🔬 方法详解

问题定义:现有UI视觉语言模型(VLM)的训练依赖于大规模数据集,但现有数据集要么缺乏上下文信息,只包含孤立的元素标注,要么虽然包含上下文信息,但规模较小,难以支持VLM的有效训练。因此,如何构建一个大规模、高质量、包含详细功能描述的UI数据集成为一个关键问题。

核心思路:AutoGUI的核心思路是利用大型语言模型(LLM)的强大推理能力,通过模拟用户与UI元素的交互,并观察交互前后UI状态的变化,来自动推断UI元素的功能。这种方法避免了人工标注的成本和局限性,可以实现大规模的数据集构建。同时,为了保证标注质量,引入了LLM辅助的拒绝和验证机制。

技术框架:AutoGUI的整体流程包括以下几个主要阶段:1) UI交互模拟:模拟用户点击、输入等操作,与UI元素进行交互。2) UI状态变化检测:比较交互前后UI的状态,例如文本内容、元素属性等的变化。3) LLM功能推断:利用LLM分析UI状态的变化,推断UI元素的功能描述。4) LLM辅助的拒绝和验证:利用LLM对推断的功能描述进行评估,拒绝不合理或错误的标注,并验证标注的准确性。最终生成AutoGUI-704k数据集。

关键创新:AutoGUI的关键创新在于利用LLM自动生成UI元素的功能描述,并引入LLM辅助的质量控制机制。与传统的人工标注方法相比,AutoGUI可以显著降低标注成本,并实现大规模的数据集构建。此外,LLM辅助的拒绝和验证机制可以有效提高标注质量,保证数据集的可用性。

关键设计:在LLM功能推断阶段,使用了Prompt Engineering技术,设计了合适的Prompt,引导LLM生成准确的功能描述。在LLM辅助的拒绝和验证阶段,设计了基于规则和LLM的评估指标,例如,判断功能描述是否与UI状态变化一致,是否符合常识等。具体LLM的选择和Prompt的设计细节未在论文中详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AutoGUI构建的AutoGUI-704k数据集在VLM的UI理解能力方面表现出显著的提升。人工评估表明,AutoGUI的标注质量与人工标注员相当。实验结果显示,使用AutoGUI数据集训练的VLM在UI grounding任务上取得了显著的性能提升,并展现出良好的规模效应。具体提升幅度未在摘要中给出,属于未知信息。

🎯 应用场景

AutoGUI数据集可以广泛应用于提升VLM在软件自动化领域的性能,例如自动化测试、RPA(机器人流程自动化)、智能助手等。通过理解UI元素的功能,VLM可以更好地执行用户指令,实现更智能、更高效的自动化任务。未来,AutoGUI方法还可以扩展到其他领域,例如网页自动化、移动应用自动化等。

📄 摘要(原文)

User interface understanding with vision-language models (VLMs) has received much attention due to its potential for enhancing software automation. However, existing datasets used to build UI-VLMs either only contain large-scale context-free element annotations or contextualized functional descriptions for elements at a small scale. In this work, we propose the \textbf{AutoGUI} pipeline for automatically annotating UI elements with detailed functionality descriptions at scale. Specifically, we leverage large language models (LLMs) to infer element functionality by comparing UI state changes before and after simulated interactions. To improve annotation quality, we propose LLM-aided rejection and verification, eliminating invalid annotations without human labor. We construct a high-quality AutoGUI-704k dataset using the proposed pipeline, featuring diverse and detailed functionality annotations that are hardly provided by previous datasets. Human evaluation shows that we achieve annotation correctness comparable to a trained human annotator. Extensive experiments show that our dataset remarkably enhances VLM's UI grounding capabilities and exhibits significant scaling effects. We also show the interesting potential use of our dataset in UI agent tasks. Please view our project at https://autogui-project.github.io/.