Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents

📄 arXiv: 2410.05243v3 📥 PDF

作者: Boyu Gou, Ruohan Wang, Boyuan Zheng, Yanan Xie, Cheng Chang, Yiheng Shu, Huan Sun, Yu Su

分类: cs.AI, cs.CL, cs.CV

发布日期: 2024-10-07 (更新: 2025-06-17)

备注: Accepted to ICLR 2025 (Oral). Project Homepage: https://osu-nlp-group.github.io/UGround/


💡 一句话要点

提出UGround,用于GUI智能体的通用视觉定位,提升人机交互能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: GUI智能体 视觉定位 多模态学习 人机交互 LLaVA 合成数据 像素级操作

📋 核心要点

  1. 现有GUI智能体依赖文本表示,存在噪声、不完整性及高计算开销等问题。
  2. 论文提出UGround,通过视觉感知和像素级操作,使GUI智能体更像人类。
  3. 实验表明,UGround在多个基准测试中显著优于现有模型,提升高达20%。

📝 摘要(中文)

多模态大型语言模型(MLLM)正在改变图形用户界面(GUI)智能体的能力,促进它们从受控模拟环境过渡到跨各种平台的复杂现实应用。然而,这些智能体的有效性取决于其定位能力的鲁棒性。当前的GUI智能体主要使用基于文本的表示,如HTML或可访问性树,但这些表示通常会引入噪声、不完整性并增加计算开销。本文提倡一种类似人类的GUI智能体,它完全通过视觉感知环境,并直接在GUI上执行像素级操作。关键在于视觉定位模型,该模型可以准确地将GUI元素的不同指代表达式映射到GUI上的坐标。研究表明,一个简单的配方,包括基于Web的合成数据和LLaVA架构的轻微调整,对于训练这种视觉定位模型非常有效。论文收集了迄今为止最大的GUI视觉定位数据集,包含超过130万张截图中的1000万个GUI元素及其指代表达式,并使用它来训练UGround,一个强大的通用GUI智能体视觉定位模型。在涵盖三个类别(定位、离线智能体和在线智能体)的六个基准测试上的实验结果表明:1) UGround显著优于现有的GUI智能体视觉定位模型,绝对提升高达20%;2) 具有UGround的智能体优于最先进的智能体,尽管现有智能体使用额外的基于文本的输入,而我们的智能体仅使用视觉感知。这些结果为GUI智能体像人类一样浏览数字世界的可行性和前景提供了强有力的支持。

🔬 方法详解

问题定义:论文旨在解决GUI智能体在复杂、真实的数字环境中进行有效定位的问题。现有方法主要依赖HTML或可访问性树等文本表示,这些表示方式存在噪声、不完整性,并且增加了计算负担。这些问题限制了GUI智能体在实际应用中的性能和泛化能力。

核心思路:论文的核心思路是赋予GUI智能体类似人类的视觉感知能力,使其能够直接通过视觉信息理解和操作GUI界面。通过训练一个强大的视觉定位模型,将GUI元素的不同指代表达式映射到屏幕坐标,从而实现更准确、更鲁棒的定位。这种方法避免了对文本信息的依赖,减少了噪声和计算开销。

技术框架:UGround的整体框架包括数据收集、模型训练和智能体集成三个主要阶段。首先,构建大规模的GUI视觉定位数据集,包含大量的GUI截图和对应的元素指代表达式。然后,基于LLaVA架构,使用合成数据和真实数据对模型进行训练,使其具备强大的视觉定位能力。最后,将训练好的UGround模型集成到GUI智能体中,使其能够通过视觉感知进行导航和操作。

关键创新:论文的关键创新在于提出了一个完全基于视觉的GUI智能体框架,避免了对文本信息的依赖。通过大规模的合成数据和LLaVA架构的轻微调整,成功训练了一个强大的通用视觉定位模型UGround。此外,论文还构建了迄今为止最大的GUI视觉定位数据集,为该领域的研究提供了重要资源。

关键设计:UGround的关键设计包括:1) 大规模的合成数据生成,用于增强模型的泛化能力;2) 基于LLaVA架构的视觉定位模型,利用预训练的视觉和语言模型,提高模型的性能;3) 损失函数的设计,用于优化模型在视觉定位任务上的表现;4) 数据增强策略,用于提高模型的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UGround在六个基准测试中表现出色,在视觉定位任务上,相较于现有模型,UGround的性能提升高达20%。在离线和在线智能体任务中,UGround也取得了显著的性能提升,证明了其在实际应用中的有效性。值得注意的是,UGround仅使用视觉输入,而对比的SOTA模型使用了额外的文本信息。

🎯 应用场景

该研究成果可应用于自动化测试、RPA(机器人流程自动化)、辅助技术等领域。通过视觉定位,智能体可以更准确地理解和操作各种GUI界面,提高自动化任务的效率和可靠性。未来,该技术有望实现更智能、更人性化的人机交互。

📄 摘要(原文)

Multimodal large language models (MLLMs) are transforming the capabilities of graphical user interface (GUI) agents, facilitating their transition from controlled simulations to complex, real-world applications across various platforms. However, the effectiveness of these agents hinges on the robustness of their grounding capability. Current GUI agents predominantly utilize text-based representations such as HTML or accessibility trees, which, despite their utility, often introduce noise, incompleteness, and increased computational overhead. In this paper, we advocate a human-like embodiment for GUI agents that perceive the environment entirely visually and directly perform pixel-level operations on the GUI. The key is visual grounding models that can accurately map diverse referring expressions of GUI elements to their coordinates on the GUI across different platforms. We show that a simple recipe, which includes web-based synthetic data and slight adaptation of the LLaVA architecture, is surprisingly effective for training such visual grounding models. We collect the largest dataset for GUI visual grounding so far, containing 10M GUI elements and their referring expressions over 1.3M screenshots, and use it to train UGround, a strong universal visual grounding model for GUI agents. Empirical results on six benchmarks spanning three categories (grounding, offline agent, and online agent) show that 1) UGround substantially outperforms existing visual grounding models for GUI agents, by up to 20% absolute, and 2) agents with UGround outperform state-of-the-art agents, despite the fact that existing agents use additional text-based input while ours only uses visual perception. These results provide strong support for the feasibility and promises of GUI agents that navigate the digital world as humans do.