A Comprehensive Survey of Agents for Computer Use: Foundations, Challenges, and Future Directions
作者: Pascal J. Sager, Benjamin Meyer, Peng Yan, Rebekka von Wartburg-Kottler, Layan Etaiwi, Aref Enayati, Gabriel Nobel, Ahmed Abdulkadir, Benjamin F. Grewe, Thilo Stadelmann
分类: cs.AI, cs.HC, eess.SY
发布日期: 2025-01-27 (更新: 2025-06-04)
💡 一句话要点
全面调研计算机使用智能体:奠基、挑战与未来方向
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 计算机使用智能体 自动化 人机交互 深度学习 自然语言处理
📋 核心要点
- 现有计算机使用智能体(ACU)在泛化性、学习效率和规划能力方面存在不足,难以应对真实世界复杂任务。
- 论文提出一个统一的ACU分类法,从领域、交互和智能体三个维度分析现有方法,并识别关键研究差距。
- 通过对87个ACU和33个数据集的分析,论文为未来ACU研究方向提供了指导,旨在实现更通用和鲁棒的智能体。
📝 摘要(中文)
计算机使用智能体 (ACU) 是一类新兴系统,能够在数字设备(如桌面、手机和 Web 平台)上,根据自然语言指令执行复杂任务。这些智能体可以通过控制鼠标点击和触摸屏手势等底层动作来自动化软件操作。尽管取得了快速进展,但 ACU 尚未成熟到可以日常使用。本综述调查了实用 ACU 开发的最新技术、趋势和研究差距。我们全面回顾了 ACU 的发展现状,提出了一个统一的分类法,涵盖三个维度:(I) 领域视角,描述智能体的操作环境;(II) 交互视角,描述观察模态(例如,屏幕截图、HTML)和动作模态(例如,鼠标、键盘、代码执行);(III) 智能体视角,详细说明智能体如何感知、推理和学习。我们通过这个分类法回顾了 87 个 ACU 和 33 个数据集,涵盖了基于基础模型的和经典的方法。我们的分析确定了六个主要研究差距:泛化能力不足、学习效率低下、规划能力有限、基准测试中的任务复杂度低、评估不标准化以及研究与实际条件脱节。为了解决这些差距,我们提倡:(a) 基于视觉的观察和底层控制以增强泛化能力;(b) 超越静态提示的自适应学习;(c) 有效的规划和推理方法与模型;(d) 反映真实世界任务复杂性的基准;(e) 基于任务成功的标准化评估;(f) 使智能体设计与真实部署约束对齐。总之,我们的分类法和分析为推进 ACU 研究,朝着通用型、鲁棒且可扩展的计算机使用智能体奠定了基础。
🔬 方法详解
问题定义:现有计算机使用智能体(ACU)在真实世界场景中面临泛化性差、学习效率低、规划能力不足等问题。现有的方法往往依赖于特定的环境和任务,难以适应新的场景和复杂的操作流程,导致实际应用受限。此外,评估标准不统一也阻碍了ACU的进一步发展。
核心思路:论文的核心思路是通过构建一个全面的ACU分类法,系统地分析现有方法,从而识别关键的研究差距,并为未来的研究方向提供指导。该分类法从领域、交互和智能体三个维度对ACU进行剖析,有助于研究人员更好地理解ACU的各个方面,并找到改进的方向。
技术框架:该论文并非提出一个新的技术框架,而是构建了一个用于分析现有ACU的分类框架。该框架包含三个主要维度:领域视角(描述智能体的操作环境,如桌面、移动设备等)、交互视角(描述观察模态,如屏幕截图、HTML,以及动作模态,如鼠标、键盘、代码执行)和智能体视角(描述智能体如何感知、推理和学习)。通过这三个维度,可以对现有的ACU进行全面的分析和比较。
关键创新:该论文的主要创新在于提出了一个统一的ACU分类法,并基于此对现有方法进行了全面的分析。与以往的研究相比,该分类法更加系统和全面,有助于研究人员更好地理解ACU的各个方面,并找到改进的方向。此外,该论文还识别了六个主要的研究差距,为未来的研究提供了明确的目标。
关键设计:该论文的关键设计在于三个维度的分类标准:领域视角关注应用场景的多样性,交互视角关注智能体与环境的交互方式,智能体视角关注智能体的认知和学习能力。通过这三个维度的交叉分析,可以深入了解不同ACU的优缺点,并为未来的设计提供参考。
🖼️ 关键图片
📊 实验亮点
该论文通过对87个ACU和33个数据集的分析,识别了六个主要的研究差距,包括泛化能力不足、学习效率低下、规划能力有限、基准测试中的任务复杂度低、评估不标准化以及研究与实际条件脱节。这些发现为未来的ACU研究提供了明确的目标和方向。
🎯 应用场景
该研究成果可应用于自动化办公、智能助手、软件测试等领域。通过提升计算机使用智能体的泛化能力和学习效率,可以实现更智能、更高效的自动化操作,从而提高生产力,降低成本。未来,有望实现通用型的计算机使用智能体,能够像人类一样灵活地操作计算机。
📄 摘要(原文)
Agents for computer use (ACUs) are an emerging class of systems capable of executing complex tasks on digital devices - such as desktops, mobile phones, and web platforms - given instructions in natural language. These agents can automate tasks by controlling software via low-level actions like mouse clicks and touchscreen gestures. However, despite rapid progress, ACUs are not yet mature for everyday use. In this survey, we investigate the state-of-the-art, trends, and research gaps in the development of practical ACUs. We provide a comprehensive review of the ACU landscape, introducing a unifying taxonomy spanning three dimensions: (I) the domain perspective, characterizing agent operating contexts; (II) the interaction perspective, describing observation modalities (e.g., screenshots, HTML) and action modalities (e.g., mouse, keyboard, code execution); and (III) the agent perspective, detailing how agents perceive, reason, and learn. We review 87 ACUs and 33 datasets across foundation model-based and classical approaches through this taxonomy. Our analysis identifies six major research gaps: insufficient generalization, inefficient learning, limited planning, low task complexity in benchmarks, non-standardized evaluation, and a disconnect between research and practical conditions. To address these gaps, we advocate for: (a) vision-based observations and low-level control to enhance generalization; (b) adaptive learning beyond static prompting; (c) effective planning and reasoning methods and models; (d) benchmarks that reflect real-world task complexity; (e) standardized evaluation based on task success; (f) aligning agent design with real-world deployment constraints. Together, our taxonomy and analysis establish a foundation for advancing ACU research toward general-purpose agents for robust and scalable computer use.