How Mobile World Model Guides GUI Agents?

📄 arXiv: 2605.10347v1 📥 PDF

作者: Weikai Xu, Kun Huang, Yunren Feng, Jiaxing Li, Yuhan Chen, Yuxuan Liu, Zhizheng Jiang, Heng Qu, Pengzhi Gao, Wei Liu, Jian Luan, Xiaolin Hu, Bo An

分类: cs.AI, cs.CL

发布日期: 2026-05-11


💡 一句话要点

提出多模态移动世界模型,通过对比四种表征方式揭示其在GUI智能体中的指导作用

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 移动GUI智能体 世界模型 多模态表征 视觉语言模型 动作后果预测 强化学习

📋 核心要点

  1. 现有移动GUI智能体在长周期交互中缺乏对动作后果的可靠预测,且世界模型在表征选择与下游任务的实际效用上尚存争议。
  2. 本文通过构建多模态移动世界模型数据集,对比了文本、图像及代码四种表征方式,并评估了其在训练监督与测试时引导中的作用。
  3. 实验表明,该方法在多个基准测试中达到SOTA水平,证实了世界模型在提升智能体交互经验与任务性能方面的显著价值。

📝 摘要(中文)

视觉语言模型的发展推动了移动GUI智能体的进步,但对于长周期、高风险交互而言,可靠的动作后果预测至关重要。现有移动世界模型在文本与图像表征的选择、生成轨迹的替代价值以及测试时引导的有效性方面尚不明确。本文通过筛选并标注移动世界模型数据,训练了涵盖增量文本、全量文本、基于扩散的图像及可渲染代码四种模态的世界模型。研究在MobileWorldBench和Code2WorldBench上达到SOTA水平,并得出三项关键发现:可渲染代码在分布内保真度高,文本反馈在分布外(OOD)场景更鲁棒;世界模型生成的轨迹可提供可迁移的交互经验;对于低动作熵的智能体,世界模型作为先验感知或训练监督比作为事后验证器更有效。

🔬 方法详解

问题定义:论文旨在解决移动GUI智能体在复杂任务中缺乏对动作后果预测能力的问题,明确哪种未来状态表征(文本、图像或代码)最适合指导智能体,以及世界模型在训练与推理阶段的最佳应用范式。

核心思路:通过对比四种模态(增量文本、全量文本、扩散图像、可渲染代码)的预测能力,探究不同表征在分布内保真度与分布外鲁棒性上的差异,从而构建更高效的移动世界模型。

技术框架:研究首先对移动GUI交互数据进行清洗与标注,随后训练四个独立的世界模型分支。通过在MobileWorldBench等基准上进行评估,分析模型生成的轨迹如何作为辅助数据提升智能体性能,并测试其在AITZ等环境下的下游效用。

关键创新:引入“可渲染代码”作为一种新型表征,证明其在提供多模态监督方面的优越性;同时揭示了世界模型在“先验感知”与“事后验证”两种角色下的效能差异,指出其更适合作为训练监督而非简单的推理验证器。

关键设计:采用了多模态数据对齐策略,利用扩散模型生成视觉状态,并结合文本增量更新机制。在训练中引入了轨迹生成与重放机制,通过对比实验量化了不同模态在OOD场景下的泛化表现,并针对低动作熵智能体进行了针对性的反射机制评估。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

模型在MobileWorldBench和Code2WorldBench上均达到SOTA性能。实验发现,可渲染代码在分布内保真度上表现最优,而文本反馈在OOD场景下展现出更强的鲁棒性。此外,通过引入世界模型生成的轨迹数据,智能体的端到端任务成功率得到显著提升,验证了其作为训练监督手段的有效性。

🎯 应用场景

该研究可广泛应用于自动化移动设备测试、智能手机辅助驾驶系统及个人数字助理。通过提供可靠的动作后果预测,能够显著提升智能体在复杂App操作中的成功率与安全性,降低长周期任务中的错误风险,为构建更具鲁棒性的自主GUI智能体提供技术支撑。

📄 摘要(原文)

Recent advances in vision-language models have enabled mobile GUI agents to perceive visual interfaces and execute user instructions, but reliable prediction of action consequences remains critical for long-horizon and high-risk interactions. Existing mobile world models provide either text-based or image-based future states, yet it remains unclear which representation is useful, whether generated rollouts can replace real environments, and how test-time guidance helps agents of different strengths. To answer the above questions, we filter and annotate mobile world-model data, then train world models across four modalities: delta text, full text, diffusion-based images, and renderable code. These models achieve SoTA performance on both MobileWorldBench and Code2WorldBench. Furthermore, by evaluating their downstream utility on AITZ, AndroidControl, and AndroidWorld, we obtain three findings. First, renderable code reconstruction achieves high in-distribution fidelity and provides effective multimodal supervision for data construction, while text-based feedback is more robust for online out-of-distribution (OOD) execution. Second, world-model-generated trajectories can provide transferable interaction experience in the training process and improve agents' end-to-end task performance, although these data do not preserve the original distribution. Last, for overconfident mobile agents with low action entropy, posterior self-reflection provides limited gains, suggesting that world models are more effective as prior perception or training supervision than as universal post-hoc verifiers.