CUA-Suite: Massive Human-annotated Video Demonstrations for Computer-Use Agents
作者: Xiangru Jian, Shravan Nayak, Kevin Qinghong Lin, Aarash Feizi, Kaixin Li, Patrice Bechard, Spandana Gella, Sai Rajeswar
分类: cs.LG, cs.AI, cs.CV
发布日期: 2026-03-25
备注: Project Page: https://cua-suite.github.io/
💡 一句话要点
CUA-Suite:大规模人工标注视频数据集,助力计算机使用智能体研究
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 计算机使用智能体 视频数据集 人机交互 桌面自动化 行为克隆
📋 核心要点
- 现有计算机使用智能体研究缺乏连续、高质量的人工演示视频数据,阻碍了通用智能体的开发。
- CUA-Suite 旨在提供大规模、高质量的视频数据集,包含连续屏幕录像、光标轨迹和多层推理标注。
- 初步评估显示现有模型在专业桌面应用中表现不佳,CUA-Suite 为未来研究方向提供了丰富资源。
📝 摘要(中文)
计算机使用智能体(CUAs)在自动化复杂桌面工作流程方面具有巨大潜力,但通用智能体的进展受到高质量人工演示视频稀缺的限制。现有最大开放数据集ScaleCUA仅包含200万张截图,相当于不到20小时的视频。为了解决这一瓶颈,我们推出了CUA-Suite,这是一个大规模的专家视频演示和密集标注生态系统,专为专业桌面计算机使用智能体设计。其核心是VideoCUA,它提供了约10,000个由人工演示的任务,涵盖87个不同的应用程序,包含连续的30 fps屏幕录像、运动光标轨迹和多层推理标注,总计约55小时和600万帧的专家视频。与仅捕获最终点击坐标的稀疏数据集不同,这些连续视频流保留了人机交互的完整时间动态,形成了一个可以无损转换为现有智能体框架所需格式的信息超集。CUA-Suite还提供了两个互补资源:UI-Vision,一个用于评估CUAs中 grounding 和规划能力的严格基准;以及GroundCUA,一个大规模的 grounding 数据集,包含56K个带标注的屏幕截图和超过360万个UI元素标注。初步评估表明,当前的foundation action模型在专业桌面应用程序上表现不佳(约60%的任务失败率)。除了评估之外,CUA-Suite丰富的多模态语料库还支持新兴的研究方向,包括通用屏幕解析、连续空间控制、基于视频的奖励建模和视觉世界模型。所有数据和模型均已公开发布。
🔬 方法详解
问题定义:现有计算机使用智能体(CUAs)的研究受限于缺乏大规模、连续且高质量的人工演示视频数据。现有数据集通常是稀疏的截图,无法捕捉人机交互的完整时间动态,这对于训练能够理解和执行复杂桌面任务的智能体至关重要。现有方法难以泛化到复杂的专业桌面应用程序。
核心思路:论文的核心思路是通过构建一个大规模的、包含连续视频流和密集标注的数据集,来解决数据稀缺的问题。该数据集旨在提供人机交互的完整时间动态,从而使智能体能够更好地学习和理解人类在桌面环境中的操作行为。通过提供高质量的数据,促进计算机使用智能体在通用性和鲁棒性方面的提升。
技术框架:CUA-Suite 包含三个主要组成部分:VideoCUA、UI-Vision 和 GroundCUA。VideoCUA 是核心,提供连续的屏幕录像、光标轨迹和多层推理标注。UI-Vision 是一个基准,用于评估智能体的 grounding 和规划能力。GroundCUA 是一个大规模的 grounding 数据集,包含带标注的屏幕截图和 UI 元素标注。整个框架旨在提供一个全面的资源,支持计算机使用智能体的研究和开发。
关键创新:该论文的关键创新在于构建了一个大规模的、包含连续视频流和密集标注的数据集。与现有数据集相比,CUA-Suite 提供了更丰富的信息,包括人机交互的完整时间动态。此外,CUA-Suite 还提供了基准和 grounding 数据集,从而为计算机使用智能体的研究提供了更全面的支持。这种连续视频数据为学习人类操作的细粒度时序信息提供了可能。
关键设计:VideoCUA 采用 30 fps 的屏幕录像,以捕捉人机交互的完整时间动态。光标轨迹被记录下来,以提供更详细的操作信息。多层推理标注用于描述人类操作背后的意图和逻辑。UI-Vision 基准包含一系列复杂的桌面任务,用于评估智能体的 grounding 和规划能力。GroundCUA 包含大量的带标注的屏幕截图和 UI 元素标注,用于支持智能体的视觉理解。
📊 实验亮点
初步评估显示,现有 foundation action 模型在专业桌面应用程序上的任务失败率高达 60%,表明当前模型在复杂桌面环境中的泛化能力不足。CUA-Suite 的发布为研究人员提供了一个评估和改进现有模型的平台,并为开发更强大的计算机使用智能体提供了数据基础。该数据集的规模和质量远超现有数据集,有望推动相关领域的研究进展。
🎯 应用场景
该研究成果可广泛应用于自动化办公、软件测试、用户行为分析等领域。通过训练计算机使用智能体,可以自动执行重复性的桌面任务,提高工作效率。此外,该数据集还可以用于研究人机交互、视觉理解和强化学习等领域,为未来的智能办公和人机协作提供技术支持。未来,基于该数据集训练的智能体有望实现更高级别的自动化和智能化。
📄 摘要(原文)
Computer-use agents (CUAs) hold great promise for automating complex desktop workflows, yet progress toward general-purpose agents is bottlenecked by the scarcity of continuous, high-quality human demonstration videos. Recent work emphasizes that continuous video, not sparse screenshots, is the critical missing ingredient for scaling these agents. However, the largest existing open dataset, ScaleCUA, contains only 2 million screenshots, equating to less than 20 hours of video. To address this bottleneck, we introduce CUA-Suite, a large-scale ecosystem of expert video demonstrations and dense annotations for professional desktop computer-use agents. At its core is VideoCUA, which provides approximately 10,000 human-demonstrated tasks across 87 diverse applications with continuous 30 fps screen recordings, kinematic cursor traces, and multi-layerfed reasoning annotations, totaling approximately 55 hours and 6 million frames of expert video. Unlike sparse datasets that capture only final click coordinates, these continuous video streams preserve the full temporal dynamics of human interaction, forming a superset of information that can be losslessly transformed into the formats required by existing agent frameworks. CUA-Suite further provides two complementary resources: UI-Vision, a rigorous benchmark for evaluating grounding and planning capabilities in CUAs, and GroundCUA, a large-scale grounding dataset with 56K annotated screenshots and over 3.6 million UI element annotations. Preliminary evaluation reveals that current foundation action models struggle substantially with professional desktop applications (~60% task failure rate). Beyond evaluation, CUA-Suite's rich multimodal corpus supports emerging research directions including generalist screen parsing, continuous spatial control, video-based reward modeling, and visual world models. All data and models are publicly released.