Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining

作者: Weimin Xiong, Shuhao Gu, Bowen Ye, Zihao Yue, Lei Li, Feifan Song, Sujian Li, Hao Tian

分类: cs.CL, cs.AI, cs.CV, cs.LG

发布日期: 2026-05-14

备注: Accepted at ICML 2026

💡 一句话要点

提出Video2GUI框架，从互联网视频合成大规模GUI交互轨迹，用于GUI Agent预训练。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: GUI Agent 预训练 互联网视频 交互轨迹 自动化标注 多模态学习 计算机视觉

📋 核心要点

现有GUI Agent训练数据匮乏，依赖人工标注且领域受限，阻碍了模型的泛化能力。
Video2GUI框架自动从互联网视频中提取GUI交互轨迹，构建大规模WildGUI数据集。
在WildGUI上预训练模型，在多个GUI任务上性能提升显著，达到或超过SOTA水平。

📝 摘要（中文）

本文提出Video2GUI，一个全自动框架，旨在从无标签互联网视频中提取有依据的GUI交互轨迹，以解决GUI Agent泛化能力受限于大规模训练数据匮乏的问题。现有数据集严重依赖昂贵的人工标注，且通常局限于狭窄领域。Video2GUI采用由粗到精的过滤策略，识别高质量的GUI教程视频，并将其转换为结构化的Agent轨迹。通过将该流程应用于5亿视频元数据条目，构建了WildGUI，一个包含1200万交互轨迹的大规模数据集，涵盖超过1500个应用程序和网站。在WildGUI上预训练Qwen2.5-VL和Mimo-VL，在多个GUI grounding和action基准测试中，性能均提升5-20%，达到或超过当前最佳水平。我们将发布WildGUI数据集和Video2GUI流程，以支持GUI Agent的未来研究。

🔬 方法详解

问题定义：现有GUI Agent的训练依赖于人工标注的数据集，这些数据集规模有限，成本高昂，并且通常只覆盖特定的应用程序或网站。这导致训练出的Agent在面对新的、未见过的GUI环境时，泛化能力较差。因此，需要一种能够自动生成大规模、多样化GUI交互轨迹的方法，以提升Agent的泛化能力。

核心思路：本文的核心思路是从互联网上大量的无标注视频中提取GUI交互轨迹。这些视频通常包含各种应用程序的使用教程，蕴含着丰富的GUI交互信息。通过自动化的方法，将这些视频转换为结构化的Agent轨迹，可以有效地扩充训练数据集，提高Agent的泛化能力。

技术框架：Video2GUI框架包含以下几个主要阶段：1) 视频筛选：利用粗到精的过滤策略，从海量互联网视频中筛选出高质量的GUI教程视频。2) 轨迹提取：将筛选出的视频转换为结构化的Agent轨迹，包括GUI状态、用户操作等信息。3) 数据集构建：将提取出的轨迹整合为大规模的WildGUI数据集。具体来说，粗过滤阶段使用关键词匹配和视频时长等信息快速排除不相关的视频，精过滤阶段则利用图像识别和OCR技术，识别视频中的GUI元素，并判断其是否与交互相关。

关键创新：Video2GUI的关键创新在于其全自动化的流程，能够从无标注的互联网视频中提取GUI交互轨迹，从而避免了人工标注的成本和局限性。此外，粗到精的过滤策略能够有效地筛选出高质量的GUI教程视频，保证了数据的质量。

关键设计：在视频筛选阶段，使用了基于关键词匹配和视频时长的粗过滤方法，以及基于图像识别和OCR技术的精过滤方法。在轨迹提取阶段，使用了目标检测和OCR技术来识别GUI元素，并利用时间序列分析来推断用户操作。具体参数设置和网络结构等细节未在摘要中详细说明，属于未知信息。

📊 实验亮点

通过在WildGUI数据集上预训练Qwen2.5-VL和Mimo-VL模型，在多个GUI grounding和action基准测试中，性能均提升5-20%，达到或超过当前最佳水平。这表明Video2GUI框架能够有效地生成高质量的训练数据，提升GUI Agent的性能。

🎯 应用场景

该研究成果可广泛应用于GUI Agent的预训练，提升Agent在各种应用程序和网站上的交互能力。例如，可以应用于自动化测试、智能助手、无障碍辅助等领域，帮助用户更高效地使用各种GUI应用。未来，该方法还可以扩展到其他类型的交互式环境中，例如虚拟现实、增强现实等。

📄 摘要（原文）

Recent advances in multimodal large language models have driven growing interest in graphical user interface (GUI) agents, yet their generalization remains constrained by the scarcity of large-scale training data spanning diverse real-world applications. Existing datasets rely heavily on costly manual annotations and are typically confined to narrow domains. To address this challenge, we propose Video2GUI, a fully automated framework that extracts grounded GUI interaction trajectories directly from unlabeled Internet videos. Video2GUI employs a coarse-to-fine filtering strategy to identify high-quality GUI tutorial videos and convert them into structured agent trajectories. Applying this pipeline to 500 million video metadata entries, we construct WildGUI, a large-scale dataset containing 12 million interaction trajectories spanning over 1,500 applications and websites. Pre-training Qwen2.5-VL and Mimo-VL on WildGUI yields consistent improvements of 5-20% across multiple GUI grounding and action benchmarks, matching or surpassing state-of-the-art performance. We will release both the WildGUI dataset and the Video2GUI pipeline to support future research of GUI agents.

Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理