Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis

📄 arXiv: 2505.13227v3 📥 PDF

作者: Tianbao Xie, Jiaqi Deng, Xiaochuan Li, Junlin Yang, Haoyuan Wu, Jixuan Chen, Wenjing Hu, Xinyuan Wang, Yuhui Xu, Zekun Wang, Yiheng Xu, Junli Wang, Doyen Sahoo, Tao Yu, Caiming Xiong

分类: cs.AI, cs.CL, cs.CV, cs.HC

发布日期: 2025-05-19 (更新: 2025-10-24)

备注: 49 pages, 13 figures


💡 一句话要点

提出OSWorld-G基准和Jedi数据集,提升计算机使用Agent的GUI Grounding能力。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: GUI Grounding 人机交互 计算机助手 数据集构建 基准测试

📋 核心要点

  1. 现有GUI grounding基准过于简化,无法捕捉真实世界交互所需的复杂性,例如软件常识和布局理解。
  2. 论文提出OSWorld-G基准和Jedi数据集,通过多角度解耦任务,合成大规模数据,提升模型泛化能力。
  3. 实验表明,基于Jedi训练的模型在多个基准测试中表现优异,并在OSWorld上将Agent能力从5%提升到27%。

📝 摘要(中文)

图形用户界面(GUI) grounding,即将自然语言指令映射到GUI上的特定动作,仍然是计算机使用Agent开发的关键瓶颈。现有的基准测试过于简化了grounding任务,将其视为简短的指代表达式,无法捕捉真实交互的复杂性,这些交互需要软件常识、布局理解和细粒度操作能力。为了解决这些限制,我们引入了OSWorld-G,这是一个综合基准,包含564个精细标注的样本,涵盖文本匹配、元素识别、布局理解和精确操作等多种任务类型。此外,我们通过多角度解耦任务,合成并发布了最大的计算机使用grounding数据集Jedi,其中包含400万个示例。我们基于Jedi训练的多尺度模型证明了其有效性,在ScreenSpot-v2、ScreenSpot-Pro和我们的OSWorld-G上优于现有方法。此外,我们证明了通过Jedi改进的grounding直接增强了一般基础模型在复杂计算机任务上的Agent能力,在OSWorld上从5%提高到27%。通过详细的消融研究,我们确定了影响grounding性能的关键因素,并验证了针对不同界面元素的专用数据组合能够实现对新界面的组合泛化。所有基准、数据、检查点和代码均已开源。

🔬 方法详解

问题定义:现有的GUI grounding方法和数据集,例如ScreenSpot,通常关注于简单的指代表达式,忽略了真实世界计算机使用场景中复杂的交互逻辑和对软件常识、布局理解的需求。这导致模型在实际应用中泛化能力不足,难以处理复杂的任务。

核心思路:论文的核心思路是通过构建更大规模、更全面的数据集Jedi,并结合新的基准测试OSWorld-G,来提升模型在GUI grounding任务上的性能。Jedi数据集通过多角度解耦任务,例如文本匹配、元素识别、布局理解和精确操作,从而使模型能够学习到更丰富的知识和更强的泛化能力。同时,OSWorld-G基准测试则更贴近真实世界的计算机使用场景,能够更准确地评估模型的性能。

技术框架:论文提出的方法主要包含两个部分:数据集构建和模型训练。数据集构建方面,通过程序化生成和人工标注相结合的方式,构建了大规模的Jedi数据集。模型训练方面,采用了多尺度模型,并结合了针对不同界面元素的专用数据进行训练。整体流程是:首先利用Jedi数据集预训练模型,然后在OSWorld-G等基准测试上进行微调和评估。

关键创新:论文的关键创新在于构建了大规模的Jedi数据集,该数据集通过多角度解耦任务,使得模型能够学习到更丰富的知识和更强的泛化能力。此外,论文还提出了OSWorld-G基准测试,该基准测试更贴近真实世界的计算机使用场景,能够更准确地评估模型的性能。这种数据驱动的方法,结合了基准测试的评估,推动了GUI grounding领域的发展。

关键设计:Jedi数据集的关键设计在于其多角度解耦任务的特性,例如文本匹配、元素识别、布局理解和精确操作。这种设计使得模型能够分别学习到不同方面的知识,然后将这些知识组合起来,从而实现更强的泛化能力。在模型训练方面,论文采用了多尺度模型,并结合了针对不同界面元素的专用数据进行训练。具体的参数设置和网络结构细节在论文中进行了详细描述,但摘要中未提供具体数值。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于Jedi数据集训练的模型在ScreenSpot-v2、ScreenSpot-Pro和OSWorld-G等基准测试中均优于现有方法。特别是在OSWorld基准测试中,模型的Agent能力从5%提升到27%,证明了Jedi数据集的有效性以及该方法在提升GUI grounding能力方面的显著效果。

🎯 应用场景

该研究成果可应用于开发更智能的计算机助手,例如自动化测试工具、辅助残疾人使用计算机的工具,以及能够理解用户自然语言指令并执行复杂计算机任务的智能Agent。通过提升GUI grounding能力,可以显著提高人机交互的效率和用户体验,并为更广泛的自动化应用奠定基础。

📄 摘要(原文)

Graphical user interface (GUI) grounding, the ability to map natural language instructions to specific actions on graphical user interfaces, remains a critical bottleneck in computer use agent development. Current benchmarks oversimplify grounding tasks as short referring expressions, failing to capture the complexity of real-world interactions that require software commonsense, layout understanding, and fine-grained manipulation capabilities. To address these limitations, we introduce OSWorld-G, a comprehensive benchmark comprising 564 finely annotated samples across diverse task types including text matching, element recognition, layout understanding, and precise manipulation. Additionally, we synthesize and release the largest computer use grounding dataset Jedi, which contains 4 million examples through multi-perspective decoupling of tasks. Our multi-scale models trained on Jedi demonstrate its effectiveness by outperforming existing approaches on ScreenSpot-v2, ScreenSpot-Pro, and our OSWorld-G. Furthermore, we demonstrate that improved grounding with Jedi directly enhances agentic capabilities of general foundation models on complex computer tasks, improving from 5% to 27% on OSWorld. Through detailed ablation studies, we identify key factors contributing to grounding performance and verify that combining specialized data for different interface elements enables compositional generalization to novel interfaces. All benchmark, data, checkpoints, and code are open-sourced and available at https://osworld-grounding.github.io.