MGA: Memory-Driven GUI Agent for Observation-Centric Interaction

📄 arXiv: 2510.24168v1 📥 PDF

作者: Weihua Cheng, Ersheng Ni, Wenlong Wang, Yifei Sun, Junming Liu, Wangyu Shen, Yirong Chen, Botian Shi, Ding Wang

分类: cs.AI

发布日期: 2025-10-28

备注: Submitted to WWW2025


💡 一句话要点

MGA:面向观察中心交互的记忆驱动GUI代理,提升GUI任务的鲁棒性和泛化性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: GUI代理 人机交互 强化学习 多模态学习 记忆网络

📋 核心要点

  1. 现有GUI代理依赖历史轨迹,导致误差累积,且“先决策后观察”的机制忽略了关键界面信息。
  2. MGA的核心思想是“先观察,后决策”,将每一步交互建模为独立的、上下文丰富的环境状态。
  3. 实验表明,MGA在OSworld基准测试、真实桌面应用和跨任务迁移中,显著提升了鲁棒性、泛化性和效率。

📝 摘要(中文)

大型语言模型(LLMs)及其多模态扩展(MLLMs)的快速发展,使得智能体系统能够在各种环境中感知和行动。一个具有挑战性但影响深远的前沿领域是GUI代理的开发,它必须在复杂的桌面和Web界面中导航,同时保持鲁棒性和泛化性。现有的范例通常将任务建模为长链执行,将历史轨迹连接到上下文中。虽然Mirage和GTA1等方法改进了规划或引入了多分支动作选择,但它们仍然受到两个持续存在的问题的限制:对历史轨迹的依赖,这会放大误差传播;以及局部探索偏差,其中“先决策后观察”机制忽略了关键的界面线索。我们引入了记忆驱动GUI代理(MGA),它围绕“先观察,后决策”的原则重新构建GUI交互。MGA将每个步骤建模为一个独立的、上下文丰富的环境状态,该状态由三部分组成:当前屏幕截图、任务无关的空间信息和动态更新的结构化记忆。在OSworld基准测试、真实桌面应用程序(Chrome、VSCode、VLC)和跨任务迁移上的实验表明,与最先进的基线相比,MGA在鲁棒性、泛化性和效率方面取得了显著的提升。代码已公开发布。

🔬 方法详解

问题定义:现有GUI代理在处理复杂桌面和Web界面时,面临着鲁棒性和泛化性的挑战。它们通常依赖于历史轨迹进行决策,导致误差传播,并且“先决策后观察”的机制容易忽略关键的界面线索,从而影响决策的准确性。

核心思路:MGA的核心思路是将GUI交互过程重新构建为“先观察,后决策”的模式。通过将每一步交互视为一个独立的、上下文丰富的环境状态,MGA能够更全面地获取界面信息,从而做出更准确的决策。这种设计避免了对历史轨迹的过度依赖,降低了误差传播的风险。

技术框架:MGA的整体架构包含三个主要组成部分:当前屏幕截图、任务无关的空间信息和动态更新的结构化记忆。当前屏幕截图提供了视觉信息,任务无关的空间信息提供了界面元素的位置信息,而结构化记忆则用于存储和更新历史交互信息。这三部分信息共同构成了环境状态的完整表示。MGA利用这些信息来预测下一步的动作。

关键创新:MGA最重要的技术创新在于其“先观察,后决策”的交互模式和动态更新的结构化记忆。与现有方法相比,MGA更加注重对当前环境信息的全面感知,并通过结构化记忆来维护上下文信息,从而提高了决策的准确性和鲁棒性。

关键设计:MGA的关键设计包括:1) 使用预训练的视觉模型提取屏幕截图的特征;2) 使用空间编码技术表示界面元素的位置信息;3) 使用循环神经网络(RNN)或Transformer等模型来更新结构化记忆;4) 使用强化学习或模仿学习等方法来训练代理的决策策略。具体的参数设置、损失函数和网络结构等细节在论文中进行了详细描述。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

MGA在OSworld基准测试、真实桌面应用程序(Chrome、VSCode、VLC)和跨任务迁移上的实验中,均取得了显著的性能提升。与最先进的基线相比,MGA在鲁棒性、泛化性和效率方面均有明显优势。具体的数据指标和对比结果可以在论文中找到。

🎯 应用场景

MGA具有广泛的应用前景,可以应用于自动化测试、RPA(机器人流程自动化)、智能助手等领域。它可以帮助用户更高效地完成各种GUI任务,例如网页浏览、文档编辑、软件操作等。未来,MGA有望成为一种通用的GUI交互代理,为用户提供更加智能和便捷的服务。

📄 摘要(原文)

The rapid progress of Large Language Models (LLMs) and their multimodal extensions (MLLMs) has enabled agentic systems capable of perceiving and acting across diverse environments. A challenging yet impactful frontier is the development of GUI agents, which must navigate complex desktop and web interfaces while maintaining robustness and generalization. Existing paradigms typically model tasks as long-chain executions, concatenating historical trajectories into the context. While approaches such as Mirage and GTA1 refine planning or introduce multi-branch action selection, they remain constrained by two persistent issues: Dependence on historical trajectories, which amplifies error propagation. And Local exploration bias, where "decision-first, observation-later" mechanisms overlook critical interface cues. We introduce the Memory-Driven GUI Agent (MGA), which reframes GUI interaction around the principle of observe first, then decide. MGA models each step as an independent, context-rich environment state represented by a triad: current screenshot, task-agnostic spatial information, and a dynamically updated structured memory. Experiments on OSworld benchmarks, real desktop applications (Chrome, VSCode, VLC), and cross-task transfer demonstrate that MGA achieves substantial gains in robustness, generalization, and efficiency compared to state-of-the-art baselines. The code is publicly available at: {https://anonymous.4open.science/r/MGA-3571}.