UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action

📄 arXiv: 2510.17790v2 📥 PDF

作者: Yuhao Yang, Zhen Yang, Zi-Yi Dou, Anh Nguyen, Keen You, Omar Attia, Andrew Szot, Michael Feng, Ram Ramrakhya, Alexander Toshev, Chao Huang, Yinfei Yang, Zhe Gan

分类: cs.CV, cs.CL

发布日期: 2025-10-20 (更新: 2025-12-10)


💡 一句话要点

UltraCUA:融合GUI操作与高级工具的计算机使用Agent基础模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 计算机使用Agent 混合动作 GUI操作 API调用 强化学习 基础模型 人机交互

📋 核心要点

  1. 现有计算机使用Agent依赖原始GUI操作,执行链脆弱,易出错,限制了其应用范围。
  2. UltraCUA通过混合动作,融合GUI操作和高级工具执行,提升Agent的智能性和鲁棒性。
  3. 实验表明,UltraCUA在OSWorld和WindowsAgentArena上均取得了显著的性能提升,验证了其有效性。

📝 摘要(中文)

计算机使用Agent面临一个根本限制:它们完全依赖于原始GUI操作(点击、输入、滚动),导致执行链脆弱且易发生级联故障。虽然API驱动的Agent通过结构化接口和工具利用了丰富的功能,但计算机使用Agent仍然受限于低级视觉交互。我们提出了UltraCUA,一个通过混合动作超越此限制的基础模型,它无缝地统一了原始GUI操作与高级工具执行。我们的创新基于四个关键进展。首先,一个自动化的pipeline从软件文档和代码仓库中提取并扩展工具能力。其次,一个合成数据引擎生成了17,000+个可验证的任务,捕捉了真实的计算机使用复杂性。第三,全面的混合动作轨迹收集包含了GUI原语和战略性工具调用。第四,一个两阶段训练方法结合了监督微调与在线强化学习,实现了GUI和API之间的智能动作选择。使用我们的7B和32B UltraCUA模型进行的评估显示了变革性的性能提升。在OSWorld上,UltraCUA实现了22%的相对改进,同时比现有方法平均快11%。在WindowsAgentArena上的跨域验证展示了强大的泛化能力,成功率为21.7%,超过了Windows训练的基线。混合动作范例被证明是必不可少的,减少了错误传播,同时提高了执行效率。这项工作建立了一个可扩展的范例,桥接了原始GUI交互和高级工具智能,从而为不同的环境和复杂的真实世界任务实现了更具弹性和适应性的计算机使用Agent。

🔬 方法详解

问题定义:现有计算机使用Agent主要依赖于低级的GUI操作,例如点击、输入和滚动。这种方式导致执行过程非常脆弱,容易因为环境的微小变化而失败,并且难以处理复杂的任务。API驱动的Agent虽然功能强大,但计算机使用Agent难以直接利用。

核心思路:UltraCUA的核心思路是引入混合动作空间,将低级的GUI操作与高级的工具调用结合起来。Agent可以根据当前状态和任务目标,智能地选择使用GUI操作还是调用API工具,从而提高任务完成的成功率和效率。这种混合动作的方式能够更好地适应复杂多变的环境。

技术框架:UltraCUA的整体框架包含以下几个主要模块:1) 工具能力提取pipeline:从软件文档和代码仓库中自动提取工具的API信息。2) 合成数据引擎:生成包含GUI操作和API调用的合成数据,用于模型的训练。3) 混合动作轨迹收集:收集真实用户在计算机上的操作轨迹,包含GUI操作和API调用。4) 两阶段训练方法:首先使用监督学习对模型进行微调,然后使用强化学习进一步优化模型的策略。

关键创新:UltraCUA最重要的创新点在于混合动作空间的设计和两阶段训练方法。混合动作空间使得Agent能够同时利用GUI操作和API调用,从而更好地完成任务。两阶段训练方法能够有效地利用合成数据和真实数据,提高模型的泛化能力。

关键设计:在两阶段训练中,第一阶段使用监督学习,损失函数为交叉熵损失,目标是让模型学习如何根据当前状态选择合适的动作。第二阶段使用强化学习,奖励函数的设计需要考虑任务的完成情况和执行效率。具体的网络结构未知,但推测使用了Transformer架构。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UltraCUA在OSWorld上实现了22%的相对改进,同时比现有方法平均快11%。在WindowsAgentArena上的跨域验证展示了强大的泛化能力,成功率为21.7%,超过了Windows训练的基线。这些结果表明,UltraCUA在性能和泛化能力方面都取得了显著的提升。

🎯 应用场景

UltraCUA具有广泛的应用前景,例如自动化办公、智能客服、软件测试等。它可以帮助用户自动完成重复性的计算机操作,提高工作效率。此外,UltraCUA还可以应用于机器人领域,使机器人能够更好地与计算机交互,完成更复杂的任务。未来,UltraCUA有望成为通用的人机交互接口,促进人与计算机的协同工作。

📄 摘要(原文)

Computer-use agents face a fundamental limitation. They rely exclusively on primitive GUI actions (click, type, scroll), creating brittle execution chains prone to cascading failures. While API-driven agents harness rich capabilities through structured interfaces and tools, computer-use agents remain constrained to low-level visual interactions. We present UltraCUA, a foundation model that transcends this limitation through hybrid action-seamlessly unifying primitive GUI operations with high-level tool execution. Our innovation rests on four critical advances. First, an automated pipeline extracts and scales tool capabilities from software documentation and code repositories. Second, a synthetic data engine produces 17,000+ verifiable tasks capturing real-world computer-use complexity. Third, comprehensive hybrid action trajectory collection incorporates both GUI primitives and strategic tool calls. Fourth, a two-stage training methodology combines supervised fine-tuning with online reinforcement learning, enabling intelligent action selection between GUI and API. Evaluation with our 7B and 32B UltraCUA models reveals transformative performance gains. On OSWorld, UltraCUA achieves 22% relative improvement while executing 11% faster than existing approaches, averagely. Cross-domain validation on WindowsAgentArena demonstrates robust generalization with 21.7% success rate, surpassing Windows-trained baselines. The hybrid action paradigm proves essential, reducing error propagation while improving execution efficiency. This work establishes a scalable paradigm bridging primitive GUI interactions and high-level tool intelligence, enabling more resilient and adaptable computer use agents for diverse environments and complex real-world tasks.