MagicGUI: A Foundational Mobile GUI Agent with Scalable Data Pipeline and Reinforcement Fine-tuning
作者: Liujian Tang, Shaokang Dong, Yijia Huang, Minqi Xiang, Hongtao Ruan, Bin Wang, Shuo Li, Zhiheng Xi, Zhihui Cao, Hailiang Pang, Heng Kong, He Yang, Mingxu Chai, Zhilin Gao, Xingyu Liu, Yingnan Fu, Jiaming Liu, Xuanjing Huang, Yu-Gang Jiang, Tao Gui, Qi Zhang, Kang Wang, Yunke Zhang, Yuran Wang
分类: cs.HC, cs.AI
发布日期: 2025-07-19 (更新: 2025-09-11)
💡 一句话要点
MagicGUI:基于可扩展数据管道和强化微调的移动GUI基础代理
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 移动GUI代理 多模态学习 强化学习 数据管道 用户界面 任务规划 智能助手
📋 核心要点
- 现有移动GUI代理在感知、定位和推理方面存在不足,难以应对真实场景的复杂性和多样性。
- MagicGUI通过构建大规模多模态数据集,增强感知和定位能力,并采用规划导向的推理机制来解决上述问题。
- MagicGUI在多个基准测试中表现出色,展示了其强大的泛化能力和在实际移动GUI场景中的部署潜力。
📝 摘要(中文)
本文介绍了MagicGUI,一个基础的移动GUI代理,旨在解决真实移动GUI环境中感知、定位和推理的关键挑战。该框架基于以下六个关键组成部分:(1)通过可扩展的GUI数据管道构建的全面而准确的数据集,该管道聚合了迄今为止最大、最多样化的以GUI为中心的多模态数据,这些数据来自开源存储库、自动爬取和有针对性的人工标注;(2)增强的感知和定位能力,促进UI元素引用、定位和屏幕理解的细粒度多模态对齐;(3)全面而统一的动作空间,包括基本UI操作和复杂的交互意图,以支持人机交互;(4)面向规划的推理机制,使模型能够将复杂的用户指令分解为具有显式中间元规划推理的顺序动作;(5)迭代的两阶段训练过程,结合了780万样本的大规模持续预训练和利用空间增强复合奖励和双重过滤策略的强化微调;(6)在专有的Magic-RICH基准和十几个公共基准上具有竞争力的性能,在GUI感知和代理任务中实现了卓越的性能,同时在实际移动GUI场景中展示了强大的泛化和实际部署潜力,如图1所示。
🔬 方法详解
问题定义:现有移动GUI代理在理解用户意图、执行复杂任务方面存在局限性。痛点在于缺乏足够规模和多样性的训练数据,难以有效感知和定位UI元素,以及缺乏有效的推理和规划能力,导致无法完成复杂的交互任务。
核心思路:MagicGUI的核心思路是构建一个强大的基础模型,通过大规模数据预训练和强化微调,使其具备强大的感知、定位、推理和规划能力。通过可扩展的数据管道获取多样化的GUI数据,并设计有效的训练策略,提升模型在真实场景中的表现。
技术框架:MagicGUI的整体框架包含以下几个主要模块:(1) 可扩展的GUI数据管道,用于收集和处理大规模多模态数据;(2) 增强的感知和定位模块,用于细粒度地理解UI元素;(3) 统一的动作空间,支持基本UI操作和复杂交互意图;(4) 规划导向的推理模块,将复杂任务分解为顺序动作;(5) 两阶段训练过程,包括大规模预训练和强化微调。
关键创新:MagicGUI的关键创新在于其综合性的解决方案,包括数据、模型和训练策略的协同设计。特别是在数据方面,通过可扩展的数据管道构建了迄今为止最大、最多样化的GUI数据集。在训练方面,采用了空间增强复合奖励和双重过滤策略的强化微调,有效提升了模型的性能。
关键设计:在数据方面,采用了开源存储库、自动爬取和人工标注相结合的方式,确保数据的多样性和准确性。在强化微调中,空间增强复合奖励考虑了动作的空间位置信息,双重过滤策略则用于筛选高质量的训练样本。具体网络结构和参数设置在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
MagicGUI在Magic-RICH基准和十几个公共基准上取得了优异的性能,超越了现有的GUI代理。具体性能数据和提升幅度在摘要中有所提及,但未给出具体数值。论文强调了MagicGUI在GUI感知和代理任务中的卓越表现,以及其强大的泛化能力和实际部署潜力。
🎯 应用场景
MagicGUI可应用于智能助手、自动化测试、无障碍辅助等领域。它可以帮助用户更高效地与移动设备进行交互,例如自动完成复杂的操作流程、辅助残障人士使用移动设备等。未来,该研究有望推动移动GUI代理的智能化发展,提升用户体验。
📄 摘要(原文)
This paper presents MagicGUI, a foundational mobile GUI agent designed to address critical challenges in perception, grounding, and reasoning within real-world mobile GUI environments. The framework is underpinned by following six key components: (1) a comprehensive and accurate dataset, constructed via the scalable GUI Data Pipeline, which aggregates the largest and most diverse GUI-centric multimodal data to date from open-source repositories, automated crawling, and targeted manual annotation; (2) enhanced perception and grounding capabilities, facilitating fine-grained multimodal alignment for UI element referencing, grounding, and screen comprehension; (3) a comprehensive and unified action space, encompassing both fundamental UI operations and complex interactive intents to support human-agent interactions; (4) planning-oriented reasoning mechanisms that enable the model to decompose complex user instructions into sequential actions with explicit intermediate meta-paln reasoning; (5) an iterative two-stage training procedure, combining large-scale continue pre-training on 7.8M samples with reinforcement fine-tuning utilizing a spatially enhanced composite reward and dual filtering strategy; and (6) competitive performance on both the proprietary Magic-RICH benchmark and over a dozen public benchmarks, achieving superior performance across GUI perception and agent tasks, while demonstrating robust generalization and real-world deployment potential in practical mobile GUI scenarios, as detailed in Figure 1.