UFO2: The Desktop AgentOS

📄 arXiv: 2504.14603v2 📥 PDF

作者: Chaoyun Zhang, He Huang, Chiming Ni, Jian Mu, Si Qin, Shilin He, Lu Wang, Fangkai Yang, Pu Zhao, Chao Du, Liqun Li, Yu Kang, Zhao Jiang, Suzhen Zheng, Rujia Wang, Jiaxu Qian, Minghua Ma, Jian-Guang Lou, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang

分类: cs.AI, cs.HC, cs.OS

发布日期: 2025-04-20 (更新: 2025-04-25)

备注: The source code of UFO2 is publicly available at https://github.com/microsoft/UFO/, with comprehensive documentation provided at https://microsoft.github.io/UFO/


💡 一句话要点

UFO2:用于Windows桌面的多智能体AgentOS,提升桌面自动化任务的鲁棒性和准确性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 桌面自动化 多智能体系统 操作系统集成 计算机使用智能体 人机交互 Windows应用程序 任务分解 API驱动

📋 核心要点

  1. 现有计算机使用智能体(CUAs)在操作系统集成度低、基于截图的交互脆弱以及执行过程易中断等方面存在不足。
  2. UFO2通过多智能体架构,结合中心化的任务协调和应用专用的API,实现了更鲁棒和可扩展的桌面自动化。
  3. 实验结果表明,UFO2在多个Windows应用程序上显著提高了任务执行的鲁棒性和准确性,优于现有CUA。

📝 摘要(中文)

本文提出了UFO2,一个用于Windows桌面的多智能体AgentOS,旨在将计算机使用智能体(CUAs)提升到实用的系统级自动化水平。UFO2采用中心化的HostAgent进行任务分解和协调,以及一系列具有原生API、领域特定知识和统一GUI-API动作层的应用专用AppAgent。这种架构在保持模块化和可扩展性的同时,实现了强大的任务执行能力。混合控制检测管道融合了Windows UI自动化(UIA)和基于视觉的解析,以支持不同的界面风格。通过推测性的多动作规划进一步提高了运行时效率,从而减少了每个步骤的LLM开销。最后,画中画(PiP)界面支持在隔离的虚拟桌面中进行自动化,允许智能体和用户同时运行而互不干扰。在超过20个真实Windows应用程序上的评估表明,UFO2在鲁棒性和执行准确性方面比以前的CUA有了显著提高。结果表明,深度操作系统集成开启了可靠、用户对齐的桌面自动化的可扩展路径。

🔬 方法详解

问题定义:现有计算机使用智能体(CUAs)虽然展现了通过自然语言自动化复杂桌面工作流程的潜力,但它们通常是概念原型,存在操作系统集成度不足、依赖脆弱的截图交互以及执行过程容易被打断等问题。这些限制阻碍了CUAs在实际桌面自动化中的应用。

核心思路:UFO2的核心思路是构建一个多智能体AgentOS,通过深度操作系统集成和模块化的智能体设计,提升桌面自动化的鲁棒性、效率和可扩展性。它将任务分解和协调交给中心化的HostAgent,并为每个应用程序配备具有原生API的AppAgent,从而实现更可靠的任务执行。

技术框架:UFO2的整体架构包括以下几个主要模块:1) HostAgent:负责任务分解、智能体协调和全局状态管理。2) AppAgent:针对特定应用程序,提供原生API和领域知识,执行具体操作。3) 混合控制检测管道:融合Windows UI自动化(UIA)和视觉解析,用于识别界面元素。4) 推测性多动作规划:减少LLM的调用次数,提高运行时效率。5) 画中画(PiP)界面:在隔离的虚拟桌面中执行自动化任务,避免干扰用户操作。

关键创新:UFO2最重要的技术创新点在于其多智能体架构和深度操作系统集成。与以往依赖截图交互的CUAs不同,UFO2利用原生API进行操作,显著提高了鲁棒性和准确性。此外,推测性多动作规划和画中画界面也进一步提升了效率和用户体验。

关键设计:UFO2的关键设计包括:1) 统一的GUI-API动作层:AppAgent通过这一层与应用程序交互,简化了操作流程。2) 混合控制检测管道:结合UIA和视觉解析,提高了界面元素识别的准确率。3) 推测性多动作规划:通过预测多个步骤的操作,减少了LLM的调用次数。具体的参数设置、损失函数和网络结构等技术细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UFO2在超过20个真实Windows应用程序上进行了评估,结果表明其在鲁棒性和执行准确性方面比以前的CUAs有了显著提高。具体的性能数据和提升幅度在论文中有所体现,但未在摘要中明确给出。总体而言,实验结果验证了UFO2的有效性和优越性。

🎯 应用场景

UFO2具有广泛的应用前景,可用于自动化各种桌面任务,例如数据录入、文件管理、软件测试、客户服务等。它可以显著提高工作效率,降低人工成本,并减少人为错误。未来,UFO2可以进一步扩展到支持更多应用程序和操作系统,并集成更高级的AI技术,例如强化学习和迁移学习,以实现更智能和自适应的桌面自动化。

📄 摘要(原文)

Recent Computer-Using Agents (CUAs), powered by multimodal large language models (LLMs), offer a promising direction for automating complex desktop workflows through natural language. However, most existing CUAs remain conceptual prototypes, hindered by shallow OS integration, fragile screenshot-based interaction, and disruptive execution. We present UFO2, a multiagent AgentOS for Windows desktops that elevates CUAs into practical, system-level automation. UFO2 features a centralized HostAgent for task decomposition and coordination, alongside a collection of application-specialized AppAgent equipped with native APIs, domain-specific knowledge, and a unified GUI--API action layer. This architecture enables robust task execution while preserving modularity and extensibility. A hybrid control detection pipeline fuses Windows UI Automation (UIA) with vision-based parsing to support diverse interface styles. Runtime efficiency is further enhanced through speculative multi-action planning, reducing per-step LLM overhead. Finally, a Picture-in-Picture (PiP) interface enables automation within an isolated virtual desktop, allowing agents and users to operate concurrently without interference. We evaluate UFO2 across over 20 real-world Windows applications, demonstrating substantial improvements in robustness and execution accuracy over prior CUAs. Our results show that deep OS integration unlocks a scalable path toward reliable, user-aligned desktop automation.