MobileGym: A Verifiable and Highly Parallel Simulation Platform for Mobile GUI Agent Research

📄 arXiv: 2605.26114v1 📥 PDF

作者: Dingbang Wu, Rui Hao, Haiyang Wang, Shuzhe Wu, Han Xiao, Zhenghong Li, Bojiang Zhou, Zheng Ju, Zichen Liu, Lue Fan, Zhaoxiang Zhang

分类: cs.AI, cs.CL

发布日期: 2026-05-25

备注: Project page: https://mobilegym.github.io


💡 一句话要点

MobileGym:用于移动GUI代理研究的可验证、高并行仿真平台

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 移动GUI代理 强化学习 仿真平台 可验证性 并行计算 Sim-to-Real 结构化状态 确定性判断

📋 核心要点

  1. 现有移动GUI代理研究缺乏可验证的评估标准和高效的并行仿真能力,限制了算法的开发和优化。
  2. MobileGym通过结构化JSON状态表示环境,实现确定性判断和可验证的结果信号,并支持低成本的并行rollout。
  3. 实验表明,在MobileGym中训练的GRPO算法在真实设备上表现出良好的迁移性,验证了该平台的有效性。

📝 摘要(中文)

本文提出了MobileGym,一个浏览器托管、轻量级、完全可控的日常移动使用环境,旨在实现交互保真度,而无需复制专有后端。它实现了两个以前日常应用程序无法实现的功能:通过基于结构化JSON状态的确定性状态判断实现可验证的结果信号,以及通过低成本的并行rollout实现可扩展的在线强化学习。完整的环境状态被捕获、配置、fork和比较为结构化JSON。单个服务器可以托管数百个并行实例,每个实例大约占用400 MB内存,冷启动时间约为3秒。分层状态模型和声明式任务定义框架使状态可编程性和任务创建在规模上具有可行性,而单一的程序化判断机制提供了确定性的评估结果和密集的强化学习奖励。随附的MobileGym-Bench提供了416个参数化任务模板,包括256个测试模板和160个训练模板,涵盖28个应用程序,具有确定性判断器和一个结构化的AnswerSheet协议,避免了自由文本匹配失败。在一个Sim-to-Real案例研究中,Qwen3-VL-4B-Instruct上的GRPO在256个任务的测试集上获得了+12.8个百分点,并且在59个任务的真实设备信号子集上,真实设备执行保留了95.1%的模拟端训练增益。

🔬 方法详解

问题定义:现有移动GUI代理研究面临的主要问题是缺乏一个既能保证交互保真度,又能提供可验证结果信号和支持大规模并行仿真的环境。现有的仿真环境往往难以兼顾这三个方面,导致算法开发和评估效率低下。特别是,自由文本匹配作为评估标准容易出错,且缺乏确定性。

核心思路:MobileGym的核心思路是使用浏览器托管的轻量级环境,通过结构化的JSON状态来表示和控制整个环境。这种方式既保证了交互的逼真度,又使得环境状态可以被精确地捕获、配置、fork和比较。同时,通过程序化的判断机制,可以提供确定性的评估结果和密集的强化学习奖励。

技术框架:MobileGym的整体架构包括以下几个主要模块:1) 浏览器托管的仿真环境,负责模拟移动应用程序的GUI交互;2) 分层状态模型,用于表示应用程序的状态,并支持状态的编程控制;3) 声明式任务定义框架,用于定义各种任务,并支持任务的参数化配置;4) 程序化判断机制,用于评估代理的性能,并提供奖励信号;5) MobileGym-Bench,提供了一系列预定义的任务模板,方便研究人员进行实验。

关键创新:MobileGym最重要的技术创新点在于其可验证性和高并行性。通过结构化的JSON状态表示和确定性的判断机制,MobileGym实现了可验证的结果信号,避免了自由文本匹配带来的不确定性。同时,由于环境是轻量级的,并且支持状态的fork和并行执行,MobileGym可以支持大规模的并行仿真,从而加速强化学习算法的训练。

关键设计:MobileGym的关键设计包括:1) 分层状态模型,将应用程序的状态分解为多个层次,方便状态的编程控制;2) 声明式任务定义框架,使用户可以通过简单的配置文件来定义任务;3) 程序化判断机制,使用户可以通过编写代码来定义判断逻辑;4) 轻量级的环境实现,保证了环境的启动速度和内存占用。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在MobileGym中训练的GRPO算法在256个任务的测试集上获得了+12.8个百分点的提升。更重要的是,在59个任务的真实设备信号子集上,真实设备执行保留了95.1%的模拟端训练增益,证明了MobileGym具有良好的Sim-to-Real迁移能力。

🎯 应用场景

MobileGym可应用于移动GUI代理的强化学习研究、自动化测试、用户行为分析等领域。它提供了一个可控、可验证、高并行的仿真环境,可以加速算法的开发和优化,提高测试效率,并为用户行为分析提供更精确的数据。

📄 摘要(原文)

We present MobileGym, a browser-hosted, lightweight, fully controllable environment for everyday mobile use, targeting interaction fidelity without replicating proprietary backends. It enables two capabilities previously out of reach for everyday apps: verifiable outcome signals through deterministic state-based judging over structured JSON state, and scalable online RL through low-cost parallel rollouts. The full environment state is captured, configured, forked, and compared as structured JSON, and a single server can host hundreds of parallel instances, with about 400 MB memory per instance and about 3 s cold start. A layered state model and a declarative task-definition framework keep state programmability and task creation practical at scale, and a single programmatic judging mechanism delivers both deterministic evaluation verdicts and dense RL rewards. The accompanying MobileGym-Bench provides 416 parameterized task templates, including 256 test and 160 train templates, over 28 apps, with deterministic judges and a structured AnswerSheet protocol that avoids free-text matching failures. In a Sim-to-Real case study, GRPO on Qwen3-VL-4B-Instruct gains +12.8 percentage points on the 256-task test set, and on a 59-task real-device signal subset, real-device execution retains 95.1% of the simulation-side training gain. Project page: https://mobilegym.github.io.