Scalable Video-to-Dataset Generation for Cross-Platform Mobile Agents
作者: Yunseok Jang, Yeda Song, Sungryull Sohn, Lajanugen Logeswaran, Tiange Luo, Dong-Ki Kim, Kyunghoon Bae, Honglak Lee
分类: cs.CV, cs.AI, cs.CL, cs.LG
发布日期: 2025-05-19
备注: CVPR 2025
💡 一句话要点
MONDAY:用于跨平台移动代理的可扩展视频到数据集生成
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 移动操作系统导航 数据集生成 跨平台泛化 GUI视觉代理 自动化标注
📋 核心要点
- 现有GUI视觉代理模型在跨平台移动操作系统导航任务中泛化能力不足,缺乏大规模、多平台的数据集。
- 提出MONDAY数据集和自动化框架,利用视频数据自动生成带注释的移动操作系统导航数据集,实现跨平台泛化。
- 实验表明,在MONDAY上预训练的模型在未见过的移动操作系统平台上性能平均提升18.11%。
📝 摘要(中文)
本文提出了MONDAY,一个大规模数据集,包含来自2万个教学视频的31.3万个带注释的帧,涵盖了多个平台上的各种真实移动操作系统导航任务。通过在预训练阶段包含MONDAY,模型展现出强大的跨平台泛化能力,始终优于在现有单一操作系统数据集上训练的模型,并在未见过的移动操作系统平台上平均提升了18.11%的性能。此外,本文还提出了一个自动化框架,利用公开的视频内容创建全面的任务数据集,无需手动注释,从而实现数据集的持续扩展。该框架包含基于OCR的鲁棒场景检测(F1值为95.04%)、近乎完美的UI元素检测(命中率为99.87%)以及新颖的多步动作识别,以提取跨各种界面配置的可靠动作序列。本文贡献了MONDAY数据集和自动化收集框架,以促进移动操作系统导航领域的未来研究。
🔬 方法详解
问题定义:现有GUI视觉代理模型在单一操作系统数据集上训练,难以泛化到新的移动操作系统平台。手动标注多平台数据成本高昂,限制了模型的发展。因此,需要一种自动化的方法,能够从公开视频中提取并生成大规模、多平台的移动操作系统导航数据集。
核心思路:利用互联网上大量的教学视频,通过自动化流程提取视频中的移动操作系统操作步骤,并将其转化为可用于训练GUI视觉代理的数据集。核心在于如何从视频中准确识别场景、UI元素和用户动作。
技术框架:该框架包含三个主要模块:1) 基于OCR的场景检测:用于识别视频中的不同场景,例如主屏幕、设置页面等。2) UI元素检测:用于检测视频帧中的UI元素,例如按钮、文本框等。3) 多步动作识别:用于识别用户在移动操作系统上的操作序列,例如点击、滑动等。整个流程自动化,无需人工干预。
关键创新:1) 自动化数据集生成:无需手动标注,降低了数据集构建的成本。2) 多步动作识别:能够识别复杂的移动操作系统操作序列,而不仅仅是单个动作。3) 跨平台泛化:MONDAY数据集包含多个平台的移动操作系统数据,有助于提高模型的跨平台泛化能力。
关键设计:1) OCR-based scene detection: 使用OCR技术识别屏幕上的文字,从而判断当前场景。2) UI element detection: 使用预训练的UI元素检测模型,检测屏幕上的各种UI元素。3) Multi-step action identification: 使用序列模型识别用户在屏幕上的操作序列。具体参数设置和损失函数细节未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在MONDAY数据集上预训练的模型在未见过的移动操作系统平台上取得了显著的性能提升,平均提升幅度达到18.11%。这表明MONDAY数据集能够有效提高模型的跨平台泛化能力。此外,自动化框架的各个模块也取得了良好的性能,例如OCR-based场景检测的F1值为95.04%,UI元素检测的命中率为99.87%。
🎯 应用场景
该研究成果可应用于开发更智能的移动助手,帮助用户自动完成移动设备上的任务。例如,自动设置手机、自动安装应用、自动配置网络等。此外,该技术还可以用于自动化测试移动应用,提高测试效率和覆盖率。未来,该技术有望扩展到其他GUI界面,例如桌面操作系统和Web应用。
📄 摘要(原文)
Recent advancements in Large Language Models (LLMs) and Vision-Language Models (VLMs) have sparked significant interest in developing GUI visual agents. We introduce MONDAY (Mobile OS Navigation Task Dataset for Agents from YouTube), a large-scale dataset of 313K annotated frames from 20K instructional videos capturing diverse real-world mobile OS navigation across multiple platforms. Models that include MONDAY in their pre-training phases demonstrate robust cross-platform generalization capabilities, consistently outperforming models trained on existing single OS datasets while achieving an average performance gain of 18.11%p on an unseen mobile OS platform. To enable continuous dataset expansion as mobile platforms evolve, we present an automated framework that leverages publicly available video content to create comprehensive task datasets without manual annotation. Our framework comprises robust OCR-based scene detection (95.04% F1score), near-perfect UI element detection (99.87% hit ratio), and novel multi-step action identification to extract reliable action sequences across diverse interface configurations. We contribute both the MONDAY dataset and our automated collection framework to facilitate future research in mobile OS navigation.