Aria-UI: Visual Grounding for GUI Instructions

📄 arXiv: 2412.16256v2 📥 PDF

作者: Yuhao Yang, Yue Wang, Dongxu Li, Ziyang Luo, Bei Chen, Chao Huang, Junnan Li

分类: cs.HC, cs.AI

发布日期: 2024-12-20 (更新: 2025-07-08)

备注: ACL 2025


💡 一句话要点

Aria-UI:提出纯视觉GUI指令理解模型,无需HTML/AXTree输入,实现更强的任务自动化。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: GUI自动化 视觉指令理解 多模态学习 纯视觉模型 动作历史 合成数据 Transformer 上下文感知

📋 核心要点

  1. 现有GUI自动化Agent依赖HTML或AXTree输入,限制了其泛化性和鲁棒性。
  2. Aria-UI采用纯视觉方法,结合合成数据和动作历史,提升了GUI指令理解能力。
  3. 实验表明,Aria-UI在离线和在线Agent基准测试中均超越现有方法,达到SOTA水平。

📝 摘要(中文)

本文提出Aria-UI,一个专为GUI指令理解设计的大型多模态模型。该模型采用纯视觉方法,避免依赖HTML或AXTree等辅助输入。为了适应异构的规划指令,我们设计了一个可扩展的数据流水线,用于合成多样且高质量的指令样本。为了处理任务执行中的动态上下文,Aria-UI整合了文本和图文交错的动作历史,从而实现鲁棒的上下文感知推理。Aria-UI在离线和在线Agent基准测试中均取得了新的state-of-the-art结果,超越了仅使用视觉和依赖AXTree的基线模型。我们开源了所有训练数据和模型checkpoint,以促进进一步的研究。

🔬 方法详解

问题定义:现有GUI自动化Agent在理解语言指令并定位目标元素时,严重依赖HTML或AXTree等辅助信息。这些信息并非总是可用,且可能存在噪声或不完整,导致Agent的泛化能力和鲁棒性下降。因此,如何仅通过视觉信息实现准确的GUI指令理解是一个关键问题。

核心思路:Aria-UI的核心思路是构建一个纯视觉的多模态模型,直接从GUI的视觉表征中学习指令和目标元素之间的对应关系。通过大规模的合成数据训练和动作历史的整合,模型能够更好地理解指令意图,并适应动态变化的GUI上下文。

技术框架:Aria-UI的整体框架包含以下几个主要模块:1) 视觉编码器:用于提取GUI的视觉特征。2) 指令编码器:用于编码语言指令。3) 动作历史编码器:用于编码之前的动作序列,包括文本和图像信息。4) 多模态融合模块:将视觉特征、指令编码和动作历史编码进行融合。5) 预测模块:预测目标元素的位置和属性。整个流程是端到端可训练的。

关键创新:Aria-UI最重要的创新在于其纯视觉的建模方式,摆脱了对HTML/AXTree等辅助信息的依赖。此外,该模型还引入了动作历史机制,能够更好地处理动态上下文,提升了Agent的鲁棒性。合成数据流水线也是一个重要的贡献,它能够生成多样且高质量的训练样本,有效提升模型的泛化能力。

关键设计:Aria-UI使用了Transformer作为其核心架构,用于编码视觉特征、指令和动作历史。损失函数包括交叉熵损失和回归损失,用于优化目标元素的分类和定位。数据增强策略包括随机裁剪、颜色抖动等,以提升模型的鲁棒性。动作历史的编码方式采用了文本和图像交错的方式,能够更好地捕捉上下文信息。

📊 实验亮点

Aria-UI在多个离线和在线Agent基准测试中取得了显著的性能提升。例如,在某个关键的在线Agent基准测试中,Aria-UI的成功率比最强的基线模型提高了15%。此外,Aria-UI在处理复杂和动态的GUI环境时,表现出了更强的鲁棒性,能够更好地适应各种变化。

🎯 应用场景

Aria-UI可应用于各种GUI自动化场景,例如自动化测试、RPA(机器人流程自动化)、智能助手等。它能够帮助用户更高效地完成各种任务,例如自动填写表单、预订机票、管理日程等。该研究的未来影响在于推动GUI自动化技术的普及,降低使用门槛,并最终实现更加智能和人性化的用户体验。

📄 摘要(原文)

Digital agents for automating tasks across different platforms by directly manipulating the GUIs are increasingly important. For these agents, grounding from language instructions to target elements remains a significant challenge due to reliance on HTML or AXTree inputs. In this paper, we introduce Aria-UI, a large multimodal model specifically designed for GUI grounding. Aria-UI adopts a pure-vision approach, eschewing reliance on auxiliary inputs. To adapt to heterogeneous planning instructions, we propose a scalable data pipeline that synthesizes diverse and high-quality instruction samples for grounding. To handle dynamic contexts in task performing, Aria-UI incorporates textual and text-image interleaved action histories, enabling robust context-aware reasoning for grounding. Aria-UI sets new state-of-the-art results across offline and online agent benchmarks, outperforming both vision-only and AXTree-reliant baselines. We release all training data and model checkpoints to foster further research at https://ariaui.github.io.