Agent S: An Open Agentic Framework that Uses Computers Like a Human

作者: Saaket Agashe, Jiuzhou Han, Shuyu Gan, Jiachen Yang, Ang Li, Xin Eric Wang

分类: cs.AI, cs.CL, cs.CV

发布日期: 2024-10-10

备注: 23 pages, 16 figures, 9 tables

🔗 代码/项目: GITHUB

💡 一句话要点

Agent S：提出一种开放的Agent框架，像人类一样通过GUI自主操作计算机。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Agent框架 人机交互 GUI自动化 分层规划 经验学习 多模态大语言模型 任务自动化

📋 核心要点

现有方法在自动化计算机任务时，面临领域知识获取、长周期任务规划以及动态非统一界面处理等挑战。
Agent S 提出经验增强的分层规划，结合外部知识搜索和内部经验检索，提升任务规划和执行效率。
实验表明，Agent S 在 OSWorld 和 WindowsAgentArena 基准测试中均取得了显著的性能提升，达到 SOTA。

📝 摘要（中文）

本文介绍Agent S，一个开放的Agent框架，旨在通过图形用户界面(GUI)实现与计算机的自主交互，从而通过自动化复杂的多步骤任务来改变人机交互方式。Agent S旨在解决自动化计算机任务中的三个关键挑战：获取领域特定知识、规划长任务周期以及处理动态的、非统一的界面。为此，Agent S引入了经验增强的分层规划，该规划通过在多个层级学习外部知识搜索和内部经验检索，从而促进高效的任务规划和子任务执行。此外，它采用Agent-Computer Interface (ACI)来更好地激发基于多模态大型语言模型(MLLM)的GUI Agent的推理和控制能力。在OSWorld基准测试上的评估表明，Agent S的成功率比基线提高了9.37%（相对提高了83.6%），并实现了新的state-of-the-art。全面的分析突出了各个组件的有效性，并为未来的改进提供了见解。此外，Agent S还在新发布的WindowsAgentArena基准测试中展示了对不同操作系统的广泛泛化能力。代码可在https://github.com/simular-ai/Agent-S获取。

🔬 方法详解

问题定义：论文旨在解决如何让Agent像人类一样，通过GUI自主完成复杂的计算机任务。现有方法在处理需要长期规划、领域知识以及动态界面的任务时表现不佳，难以泛化到不同的操作系统和应用场景。

核心思路：论文的核心思路是利用经验增强的分层规划，结合外部知识和内部经验，使Agent能够更好地理解任务、规划步骤并执行操作。通过分层结构，Agent可以将复杂任务分解为更小的子任务，并利用经验来指导规划和执行。

技术框架：Agent S 的整体架构包含以下几个主要模块：1) 知识获取模块，用于从外部资源（如搜索引擎）获取领域知识；2) 分层规划模块，用于将任务分解为子任务，并生成执行计划；3) 经验检索模块，用于从历史经验中检索相似的子任务和操作序列；4) Agent-Computer Interface (ACI)，用于Agent与计算机GUI的交互，提取界面信息并执行操作。整个流程是，Agent首先获取任务描述，然后利用知识获取模块和经验检索模块来增强其对任务的理解，接着通过分层规划模块生成执行计划，最后通过ACI与计算机交互并执行计划。

关键创新：Agent S 的关键创新在于经验增强的分层规划。传统的规划方法往往依赖于预定义的规则或模型，难以适应动态变化的环境。Agent S 通过结合外部知识和内部经验，使Agent能够更好地适应不同的任务和环境。此外，ACI的设计也使得Agent能够更有效地利用MLLM进行推理和控制。

关键设计：Agent S 的关键设计包括：1) 分层规划的层数和粒度；2) 知识获取模块的搜索策略和知识表示方法；3) 经验检索模块的相似度度量和检索算法；4) ACI 的界面元素提取和操作执行方法。这些设计都需要根据具体的任务和环境进行调整和优化。论文中可能包含一些超参数的设置，例如学习率、batch size等，但具体细节需要参考论文原文。

🖼️ 关键图片

📊 实验亮点

Agent S 在 OSWorld 基准测试中取得了显著的性能提升，成功率比基线提高了 9.37%（相对提高了 83.6%），达到了新的 state-of-the-art。此外，Agent S 还在新发布的 WindowsAgentArena 基准测试中展示了良好的泛化能力，表明其可以适应不同的操作系统和应用场景。这些实验结果证明了 Agent S 的有效性和通用性。

🎯 应用场景

Agent S 的潜在应用领域包括自动化办公、软件测试、客户服务等。它可以自动执行重复性的计算机任务，提高工作效率，降低人工成本。此外，Agent S 还可以用于开发智能助手，帮助用户更方便地使用计算机。未来，Agent S 有望成为人机交互的重要方式，改变人们使用计算机的方式。

📄 摘要（原文）

We present Agent S, an open agentic framework that enables autonomous interaction with computers through a Graphical User Interface (GUI), aimed at transforming human-computer interaction by automating complex, multi-step tasks. Agent S aims to address three key challenges in automating computer tasks: acquiring domain-specific knowledge, planning over long task horizons, and handling dynamic, non-uniform interfaces. To this end, Agent S introduces experience-augmented hierarchical planning, which learns from external knowledge search and internal experience retrieval at multiple levels, facilitating efficient task planning and subtask execution. In addition, it employs an Agent-Computer Interface (ACI) to better elicit the reasoning and control capabilities of GUI agents based on Multimodal Large Language Models (MLLMs). Evaluation on the OSWorld benchmark shows that Agent S outperforms the baseline by 9.37% on success rate (an 83.6% relative improvement) and achieves a new state-of-the-art. Comprehensive analysis highlights the effectiveness of individual components and provides insights for future improvements. Furthermore, Agent S demonstrates broad generalizability to different operating systems on a newly-released WindowsAgentArena benchmark. Code available at https://github.com/simular-ai/Agent-S.

Agent S: An Open Agentic Framework that Uses Computers Like a Human

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理