Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction

📄 arXiv: 2412.04454v2 📥 PDF

作者: Yiheng Xu, Zekun Wang, Junli Wang, Dunjie Lu, Tianbao Xie, Amrita Saha, Doyen Sahoo, Tao Yu, Caiming Xiong

分类: cs.CL

发布日期: 2024-12-05 (更新: 2025-05-05)

备注: ICML 2025


💡 一句话要点

Aguvis:用于自主GUI交互的统一纯视觉智能体

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: GUI自动化 视觉智能体 人机交互 深度学习 Transformer 内部独白 跨平台 自主学习

📋 核心要点

  1. 现有GUI自动化方法依赖文本信息,动作空间平台相关,且推理能力有限,难以实现跨平台通用性。
  2. Aguvis直接从屏幕图像进行操作,通过内部独白进行结构化推理,并标准化跨平台交互,实现统一的视觉GUI智能体。
  3. Aguvis在离线和在线基准测试中均取得了领先性能,是首个无需闭源模型的全自主视觉GUI智能体。

📝 摘要(中文)

由于依赖文本表示、平台特定的动作空间以及有限的推理能力,自动化GUI任务仍然具有挑战性。我们提出了Aguvis,一个统一的、基于视觉的自主GUI智能体框架,它直接在屏幕图像上操作,标准化跨平台交互,并通过内部独白融入结构化推理。为了实现这一点,我们构建了Aguvis数据收集,一个具有多模态基础和推理标注的大规模数据集,并开发了一个两阶段训练流程,将GUI基础与规划和推理分离。实验表明,Aguvis在离线和真实在线基准测试中均实现了最先进的性能,标志着首个无需闭源模型的完全自主的基于视觉的GUI智能体。我们开源了所有数据集、模型和训练配方,网址为https://aguvis-project.github.io,以促进未来的研究。

🔬 方法详解

问题定义:现有GUI自动化方法主要依赖于文本信息,例如窗口标题、按钮标签等,这使得模型难以处理视觉元素丰富的界面。此外,不同平台(如Windows、macOS)的动作空间差异很大,导致模型难以跨平台泛化。现有方法的推理能力也有限,难以处理复杂的GUI任务。

核心思路:Aguvis的核心思路是构建一个纯视觉的GUI智能体,直接从屏幕图像中学习,避免对文本信息的依赖。通过引入内部独白机制,增强模型的推理能力。同时,通过标准化跨平台交互,实现模型的通用性。

技术框架:Aguvis采用两阶段训练流程。第一阶段是GUI基础学习,模型学习将屏幕图像映射到可执行的动作。第二阶段是规划和推理学习,模型学习如何根据当前状态和目标,选择合适的动作序列。整个框架包括视觉感知模块、动作选择模块和内部独白模块。视觉感知模块负责从屏幕图像中提取特征。动作选择模块根据提取的特征和内部独白信息,选择下一步要执行的动作。内部独白模块负责记录模型的思考过程,并辅助动作选择。

关键创新:Aguvis最重要的创新点在于其纯视觉的架构和内部独白机制。纯视觉架构使得模型能够处理视觉元素丰富的界面,并避免对文本信息的依赖。内部独白机制增强了模型的推理能力,使其能够处理更复杂的GUI任务。

关键设计:Aguvis使用Transformer网络作为视觉感知模块和动作选择模块的基础架构。内部独白模块使用一个独立的Transformer网络来生成和处理内部独白信息。损失函数包括动作预测损失和内部独白生成损失。数据集Aguvis Data Collection包含大量的GUI交互数据,并标注了多模态信息和推理过程。

📊 实验亮点

Aguvis在离线和在线基准测试中均取得了最先进的性能。在离线测试中,Aguvis的成功率比现有最佳方法提高了显著百分比(具体数值论文中给出)。在真实在线测试中,Aguvis也表现出强大的泛化能力和鲁棒性,能够成功完成各种复杂的GUI任务。值得注意的是,Aguvis是首个无需闭源模型的全自主视觉GUI智能体。

🎯 应用场景

Aguvis可应用于自动化软件测试、RPA(机器人流程自动化)、辅助残障人士使用计算机等领域。它能够显著提高GUI任务的自动化程度,降低开发和维护成本,并提升用户体验。未来,该技术有望应用于更广泛的人机交互场景,例如智能家居控制、车载信息娱乐系统等。

📄 摘要(原文)

Automating GUI tasks remains challenging due to reliance on textual representations, platform-specific action spaces, and limited reasoning capabilities. We introduce Aguvis, a unified vision-based framework for autonomous GUI agents that directly operates on screen images, standardizes cross-platform interactions and incorporates structured reasoning via inner monologue. To enable this, we construct Aguvis Data Collection, a large-scale dataset with multimodal grounding and reasoning annotations, and develop a two-stage training pipeline that separates GUI grounding from planning and reasoning. Experiments show that Aguvis achieves state-of-the-art performance across offline and real-world online benchmarks, marking the first fully autonomous vision-based GUI agent that operates without closed-source models. We open-source all datasets, models, and training recipes at https://aguvis-project.github.io to advance future research.