ViMo: A Generative Visual GUI World Model for App Agents

📄 arXiv: 2504.13936v2 📥 PDF

作者: Dezhao Luo, Bohan Tang, Kang Li, Georgios Papoudakis, Jifei Song, Shaogang Gong, Jianye Hao, Jun Wang, Kun Shao

分类: cs.HC, cs.LG, eess.SY

发布日期: 2025-04-15 (更新: 2025-05-20)

备注: https://ai-agents-2030.github.io/ViMo/


💡 一句话要点

ViMo:用于App智能体的生成式视觉GUI世界模型,实现图像级别的未来App界面预测。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: App智能体 世界模型 GUI生成 视觉预测 长程规划 符号文本表示 图像生成 文本生成

📋 核心要点

  1. 现有App智能体在长程规划中面临挑战,难以找到复杂任务的最佳行动序列,主要原因是缺乏对未来GUI视觉信息的有效预测。
  2. ViMo通过生成图像级别的未来App界面,为App智能体提供更丰富的视觉信息,从而提升其规划能力和决策质量。
  3. 实验结果表明,ViMo生成的GUI在视觉上是合理的,并且在功能上是有效的,能够帮助App智能体做出更明智的决策。

📝 摘要(中文)

App智能体通过图形用户界面(GUI)自主操作移动App,在实际应用中引起了广泛关注。然而,它们通常难以进行长程规划,无法为具有较长步骤的复杂任务找到最佳行动。为了解决这个问题,世界模型被用于根据用户行为预测下一个GUI观察结果,从而实现更有效的智能体规划。然而,现有的世界模型主要侧重于生成文本描述,缺乏必要的视觉细节。为了填补这一空白,我们提出了ViMo,这是第一个旨在将未来的App观察结果生成为图像的视觉世界模型。针对图像块中生成文本的挑战,即使是微小的像素错误也会扭曲可读性,我们将GUI生成分解为图形和文本内容生成。我们提出了一种新的数据表示,即符号文本表示(STR),用符号占位符覆盖文本内容,同时保留图形。通过这种设计,ViMo采用STR预测器来预测未来GUI的图形,并采用GUI文本预测器来生成相应的文本。此外,我们通过预测不同行动选项的结果来部署ViMo以增强以智能体为中心的任务。实验表明,ViMo能够生成视觉上合理且功能有效的GUI,使App智能体能够做出更明智的决策。

🔬 方法详解

问题定义:现有App智能体在执行复杂任务时,由于缺乏对未来GUI视觉信息的准确预测,导致长程规划能力不足。现有的世界模型主要生成文本描述,忽略了GUI界面的视觉细节,限制了智能体的决策能力。

核心思路:ViMo的核心思路是将GUI生成分解为图形和文本内容生成,并提出符号文本表示(STR)来解决文本生成中的像素级错误问题。通过分别预测图形和文本,并结合STR,ViMo能够生成视觉上合理且功能有效的GUI图像。

技术框架:ViMo包含两个主要模块:STR预测器和GUI文本预测器。STR预测器负责预测未来GUI的图形内容,使用图像生成模型生成带有文本占位符的图像。GUI文本预测器则负责生成与占位符对应的文本内容,并将文本叠加到图形上,最终生成完整的GUI图像。

关键创新:ViMo的关键创新在于提出了符号文本表示(STR),它使用符号占位符来表示文本内容,从而避免了直接生成文本像素可能导致的错误。这种方法使得模型可以更加关注图形结构的生成,同时保证文本的可读性。

关键设计:STR预测器可以使用各种图像生成模型,例如GAN或VAE。GUI文本预测器可以使用序列到序列模型,例如Transformer,来生成与占位符对应的文本。损失函数可以包括图像生成损失、文本生成损失以及STR预测的准确率损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ViMo能够生成视觉上合理且功能有效的GUI图像,显著提升了App智能体的规划能力。与现有方法相比,ViMo生成的GUI图像更加逼真,并且能够更好地反映App的实际状态。具体性能数据未知,但论文强调ViMo使App智能体能够做出更明智的决策。

🎯 应用场景

ViMo可应用于各种App智能体任务,例如自动化测试、用户行为分析、智能助手等。通过预测未来的App界面,ViMo可以帮助智能体更好地理解用户意图,并做出更合理的决策。此外,ViMo还可以用于生成虚拟App环境,用于训练和评估App智能体。

📄 摘要(原文)

App agents, which autonomously operate mobile Apps through Graphical User Interfaces (GUIs), have gained significant interest in real-world applications. Yet, they often struggle with long-horizon planning, failing to find the optimal actions for complex tasks with longer steps. To address this, world models are used to predict the next GUI observation based on user actions, enabling more effective agent planning. However, existing world models primarily focus on generating only textual descriptions, lacking essential visual details. To fill this gap, we propose ViMo, the first visual world model designed to generate future App observations as images. For the challenge of generating text in image patches, where even minor pixel errors can distort readability, we decompose GUI generation into graphic and text content generation. We propose a novel data representation, the Symbolic Text Representation~(STR) to overlay text content with symbolic placeholders while preserving graphics. With this design, ViMo employs a STR Predictor to predict future GUIs' graphics and a GUI-text Predictor for generating the corresponding text. Moreover, we deploy ViMo to enhance agent-focused tasks by predicting the outcome of different action options. Experiments show ViMo's ability to generate visually plausible and functionally effective GUIs that enable App agents to make more informed decisions.