ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data
作者: Zhaoyang Liu, Jingjing Xie, Zichen Ding, Zehao Li, Bowen Yang, Zhenyu Wu, Xuehui Wang, Qiushi Sun, Shi Liu, Weiyun Wang, Shenglong Ye, Qingyun Li, Xuan Dong, Yue Yu, Chenyu Lu, YunXiang Mo, Yao Yan, Zeyue Tian, Xiao Zhang, Yuan Huang, Yiqian Liu, Weijie Su, Gen Luo, Xiangyu Yue, Biqing Qi, Kai Chen, Bowen Zhou, Yu Qiao, Qifeng Chen, Wenhai Wang
分类: cs.CV
发布日期: 2025-09-18 (更新: 2025-09-19)
🔗 代码/项目: GITHUB
💡 一句话要点
ScaleCUA:通过跨平台数据扩展开源计算机使用Agent
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 计算机使用Agent 视觉-语言模型 跨平台 数据驱动 自动化 人机交互 大规模数据集
📋 核心要点
- 现有计算机使用Agent受限于缺乏大规模开源数据和通用基础模型,难以实现跨平台和复杂任务的泛化。
- ScaleCUA通过闭环流程,结合自动化Agent和人工专家,构建了跨平台、多任务的大规模计算机使用数据集。
- 实验表明,基于ScaleCUA训练的Agent在多个基准测试中显著优于现有方法,并取得了新的state-of-the-art结果。
📝 摘要(中文)
视觉-语言模型(VLM)已经实现了能够自主操作图形用户界面(GUI)的计算机使用Agent(CUA),展现出巨大的潜力,但由于缺乏大规模、开源的计算机使用数据和基础模型,进展受到限制。本文介绍了ScaleCUA,这是朝着扩展开源CUA迈出的一步。它提供了一个跨越6个操作系统和3个任务领域的大规模数据集,该数据集通过一个将自动化Agent与人类专家相结合的闭环管道构建。基于这个扩展的数据训练,ScaleCUA可以无缝地跨平台运行。具体来说,它在基线上实现了显著的提升(WebArena-Lite-v2上+26.6,ScreenSpot-Pro上+10.7),并创造了新的state-of-the-art结果(MMBench-GUI L1-Hard上94.4%,OSWorld-G上60.6%,WebArena-Lite-v2上47.4%)。这些发现强调了数据驱动的扩展对于通用计算机使用Agent的强大作用。我们将发布数据、模型和代码,以促进未来的研究。
🔬 方法详解
问题定义:现有计算机使用Agent(CUA)的研究受限于缺乏大规模、高质量的训练数据,特别是跨多个操作系统和任务领域的数据。这导致模型难以泛化到新的平台和更复杂的任务上,阻碍了CUA的实际应用。现有方法通常依赖于小规模数据集或特定平台的模拟环境,无法充分捕捉真实世界计算机使用的多样性和复杂性。
核心思路:ScaleCUA的核心思路是通过一个闭环数据生成流程,结合自动化Agent和人工专家,迭代地构建大规模、高质量的计算机使用数据集。自动化Agent负责探索和执行任务,人工专家负责纠正错误和提供指导,从而不断提升数据的质量和覆盖范围。这种方法能够有效地利用计算资源和人工标注,实现数据的快速扩展和优化。
技术框架:ScaleCUA的数据生成流程主要包括以下几个阶段:1) 自动化Agent探索:使用预训练的VLM驱动的Agent在不同的操作系统和任务领域中进行探索,尝试完成各种计算机使用任务。2) 人工专家标注与纠正:人工专家对Agent的执行轨迹进行审核,纠正错误的操作,并添加必要的标注信息,例如操作意图和上下文描述。3) 数据增强与清洗:对标注后的数据进行增强,例如添加噪声、变换视角等,以提高模型的鲁棒性。同时,对数据进行清洗,去除重复和错误的数据。4) 模型训练与迭代:使用生成的数据训练CUA模型,并将其部署到自动化Agent中,用于下一轮的数据生成。
关键创新:ScaleCUA的关键创新在于其闭环数据生成流程,该流程能够有效地结合自动化Agent和人工专家的优势,实现数据的快速扩展和质量提升。与传统的数据收集方法相比,ScaleCUA能够更高效地生成大规模、多样化的计算机使用数据,从而显著提升CUA的性能。此外,ScaleCUA还提出了一个跨平台的数据格式,能够统一表示不同操作系统和任务领域的数据,方便模型的训练和部署。
关键设计:ScaleCUA使用预训练的视觉-语言模型(VLM)作为Agent的基础模型,并对其进行微调,以适应计算机使用任务。在数据生成过程中,ScaleCUA采用了一种基于强化学习的探索策略,鼓励Agent探索不同的操作路径,从而提高数据的多样性。在人工标注过程中,ScaleCUA设计了一套详细的标注规范,确保标注的一致性和准确性。此外,ScaleCUA还使用了一种数据增强技术,通过对图像进行随机裁剪、旋转和颜色变换,提高模型的鲁棒性。
🖼️ 关键图片
📊 实验亮点
ScaleCUA在多个基准测试中取得了显著的性能提升。在WebArena-Lite-v2上,ScaleCUA的性能比基线提高了26.6%。在ScreenSpot-Pro上,性能提高了10.7%。此外,ScaleCUA还在MMBench-GUI L1-Hard、OSWorld-G和WebArena-Lite-v2上创造了新的state-of-the-art结果,分别达到了94.4%、60.6%和47.4%。这些结果表明,ScaleCUA能够有效地提升CUA的性能,使其能够更好地完成各种计算机使用任务。
🎯 应用场景
ScaleCUA的研究成果可以广泛应用于自动化办公、智能助手、软件测试等领域。例如,可以利用ScaleCUA训练的Agent自动完成重复性的办公任务,提高工作效率;可以将其集成到智能助手中,帮助用户更方便地使用计算机;还可以用于自动化软件测试,发现潜在的bug。未来,ScaleCUA有望成为通用人工智能的重要组成部分,推动人机交互的智能化发展。
📄 摘要(原文)
Vision-Language Models (VLMs) have enabled computer use agents (CUAs) that operate GUIs autonomously, showing great potential, yet progress is limited by the lack of large-scale, open-source computer use data and foundation models. In this work, we introduce ScaleCUA, a step toward scaling open-source CUAs. It offers a large-scale dataset spanning 6 operating systems and 3 task domains, built via a closed-loop pipeline uniting automated agents with human experts. Trained on this scaled-up data, ScaleCUA can operate seamlessly across platforms. Specifically, it delivers strong gains over baselines (+26.6 on WebArena-Lite-v2, +10.7 on ScreenSpot-Pro) and sets new state-of-the-art results (94.4% on MMBench-GUI L1-Hard, 60.6% on OSWorld-G, 47.4% on WebArena-Lite-v2). These findings underscore the power of data-driven scaling for general-purpose computer use agents. We will release data, models, and code to advance future research: https://github.com/OpenGVLab/ScaleCUA.