Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction

作者: Yiheng Xu, Zekun Wang, Junli Wang, Dunjie Lu, Tianbao Xie, Amrita Saha, Doyen Sahoo, Tao Yu, Caiming Xiong

分类: cs.CL

发布日期: 2024-12-05 (更新: 2025-05-05)

备注: ICML 2025

💡 一句话要点

Aguvis：用于自主GUI交互的统一纯视觉智能体

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: GUI自动化 视觉智能体 人机交互 深度学习 Transformer 内部独白 跨平台 自主学习

📋 核心要点

现有GUI自动化方法依赖文本信息，动作空间平台相关，且推理能力有限，难以实现跨平台通用性。
Aguvis直接从屏幕图像进行操作，通过内部独白进行结构化推理，并标准化跨平台交互，实现统一的视觉GUI智能体。
Aguvis在离线和在线基准测试中均取得了领先性能，是首个无需闭源模型的全自主视觉GUI智能体。

📝 摘要（中文）

由于依赖文本表示、平台特定的动作空间以及有限的推理能力，自动化GUI任务仍然具有挑战性。我们提出了Aguvis，一个统一的、基于视觉的自主GUI智能体框架，它直接在屏幕图像上操作，标准化跨平台交互，并通过内部独白融入结构化推理。为了实现这一点，我们构建了Aguvis数据收集，一个具有多模态基础和推理标注的大规模数据集，并开发了一个两阶段训练流程，将GUI基础与规划和推理分离。实验表明，Aguvis在离线和真实在线基准测试中均实现了最先进的性能，标志着首个无需闭源模型的完全自主的基于视觉的GUI智能体。我们开源了所有数据集、模型和训练配方，网址为https://aguvis-project.github.io，以促进未来的研究。

🔬 方法详解

问题定义：现有GUI自动化方法主要依赖于文本信息，例如窗口标题、按钮标签等，这使得模型难以处理视觉元素丰富的界面。此外，不同平台（如Windows、macOS）的动作空间差异很大，导致模型难以跨平台泛化。现有方法的推理能力也有限，难以处理复杂的GUI任务。

核心思路：Aguvis的核心思路是构建一个纯视觉的GUI智能体，直接从屏幕图像中学习，避免对文本信息的依赖。通过引入内部独白机制，增强模型的推理能力。同时，通过标准化跨平台交互，实现模型的通用性。

技术框架：Aguvis采用两阶段训练流程。第一阶段是GUI基础学习，模型学习将屏幕图像映射到可执行的动作。第二阶段是规划和推理学习，模型学习如何根据当前状态和目标，选择合适的动作序列。整个框架包括视觉感知模块、动作选择模块和内部独白模块。视觉感知模块负责从屏幕图像中提取特征。动作选择模块根据提取的特征和内部独白信息，选择下一步要执行的动作。内部独白模块负责记录模型的思考过程，并辅助动作选择。

关键创新：Aguvis最重要的创新点在于其纯视觉的架构和内部独白机制。纯视觉架构使得模型能够处理视觉元素丰富的界面，并避免对文本信息的依赖。内部独白机制增强了模型的推理能力，使其能够处理更复杂的GUI任务。

关键设计：Aguvis使用Transformer网络作为视觉感知模块和动作选择模块的基础架构。内部独白模块使用一个独立的Transformer网络来生成和处理内部独白信息。损失函数包括动作预测损失和内部独白生成损失。数据集Aguvis Data Collection包含大量的GUI交互数据，并标注了多模态信息和推理过程。

📊 实验亮点

Aguvis在离线和在线基准测试中均取得了最先进的性能。在离线测试中，Aguvis的成功率比现有最佳方法提高了显著百分比（具体数值论文中给出）。在真实在线测试中，Aguvis也表现出强大的泛化能力和鲁棒性，能够成功完成各种复杂的GUI任务。值得注意的是，Aguvis是首个无需闭源模型的全自主视觉GUI智能体。

🎯 应用场景

Aguvis可应用于自动化软件测试、RPA（机器人流程自动化）、辅助残障人士使用计算机等领域。它能够显著提高GUI任务的自动化程度，降低开发和维护成本，并提升用户体验。未来，该技术有望应用于更广泛的人机交互场景，例如智能家居控制、车载信息娱乐系统等。

📄 摘要（原文）

Automating GUI tasks remains challenging due to reliance on textual representations, platform-specific action spaces, and limited reasoning capabilities. We introduce Aguvis, a unified vision-based framework for autonomous GUI agents that directly operates on screen images, standardizes cross-platform interactions and incorporates structured reasoning via inner monologue. To enable this, we construct Aguvis Data Collection, a large-scale dataset with multimodal grounding and reasoning annotations, and develop a two-stage training pipeline that separates GUI grounding from planning and reasoning. Experiments show that Aguvis achieves state-of-the-art performance across offline and real-world online benchmarks, marking the first fully autonomous vision-based GUI agent that operates without closed-source models. We open-source all datasets, models, and training recipes at https://aguvis-project.github.io to advance future research.

Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理