MAGNET: Towards Adaptive GUI Agents with Memory-Driven Knowledge Evolution

📄 arXiv: 2601.19199v1 📥 PDF

作者: Libo Sun, Jiwen Zhang, Siyuan Wang, Zhongyu Wei

分类: cs.AI

发布日期: 2026-01-27


💡 一句话要点

提出MAGNET,利用记忆驱动知识演化实现自适应GUI代理

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: GUI代理 自适应学习 记忆网络 知识演化 用户界面 机器人流程自动化

📋 核心要点

  1. 现有GUI代理在UI频繁更新时失效,原因是它们依赖历史数据,无法适应界面变化。
  2. MAGNET通过双层记忆结构,分别存储稳定的功能语义和任务意图,实现知识的动态演化。
  3. 实验表明,MAGNET在在线和离线测试中均优于基线方法,提升了代理的性能和泛化能力。

📝 摘要(中文)

本文提出了一种名为MAGNET的记忆驱动自适应代理框架,旨在解决大型基础模型驱动的移动GUI代理在面对频繁的UI更新和工作流程重组时性能下降的问题。MAGNET采用双层记忆结构:静态记忆将不同的视觉特征与稳定的功能语义联系起来,以实现鲁棒的动作定位;程序记忆则捕获不同工作流程中稳定的任务意图。此外,论文还提出了一种动态记忆演化机制,通过优先考虑频繁访问的知识来持续改进这两种记忆。在AndroidWorld在线和离线基准测试中,MAGNET均显著优于现有方法,验证了利用界面变化中的稳定结构可以提高代理在不断发展的软件环境中的性能和泛化能力。

🔬 方法详解

问题定义:论文旨在解决移动GUI代理在面对频繁的UI更新和工作流程重组时,由于训练数据与实际环境不匹配而导致的性能下降问题。现有方法难以适应UI的快速变化,导致代理无法正确识别和执行任务。

核心思路:论文的核心思路是利用UI变化中的稳定结构,即功能语义和任务意图。尽管UI外观和工作流程会发生变化,但功能语义和任务意图通常保持不变。通过学习和记忆这些稳定的结构,代理可以更好地适应UI的变化。

技术框架:MAGNET框架包含双层记忆结构:静态记忆和程序记忆。静态记忆将不同的视觉特征与稳定的功能语义联系起来,用于动作定位。程序记忆捕获不同工作流程中稳定的任务意图。动态记忆演化机制通过优先考虑频繁访问的知识来持续改进这两种记忆。整体流程包括观察UI界面,从记忆中检索相关知识,执行动作,并根据执行结果更新记忆。

关键创新:MAGNET的关键创新在于双层记忆结构和动态记忆演化机制。双层记忆结构能够同时捕获功能语义和任务意图,从而更好地适应UI的变化。动态记忆演化机制能够根据知识的访问频率来更新记忆,从而提高记忆的效率和准确性。

关键设计:静态记忆可以使用例如向量数据库存储视觉特征和功能语义的嵌入表示,并使用相似度搜索进行检索。程序记忆可以使用例如图结构存储任务意图和工作流程,并使用图搜索算法进行检索。动态记忆演化机制可以采用基于频率的更新策略,例如LRU或LFU。损失函数可以包括动作预测损失和记忆更新损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MAGNET在AndroidWorld在线基准测试中取得了显著的性能提升,表明其在实际应用中具有很强的适应性。离线基准测试也验证了MAGNET在分布偏移下的泛化能力。具体而言,MAGNET在任务成功率和执行效率方面均优于现有基线方法,证明了其在应对UI变化方面的优势。

🎯 应用场景

该研究成果可应用于开发更智能、更鲁棒的自动化测试工具、RPA(机器人流程自动化)系统和辅助技术。通过使代理能够适应不断变化的UI,可以显著提高自动化任务的效率和可靠性,并为用户提供更便捷的交互体验。此外,该方法还可以扩展到其他领域,例如网页自动化和跨平台应用开发。

📄 摘要(原文)

Mobile GUI agents powered by large foundation models enable autonomous task execution, but frequent updates altering UI appearance and reorganizing workflows cause agents trained on historical data to fail. Despite surface changes, functional semantics and task intents remain fundamentally stable. Building on this insight, we introduce MAGNET, a memory-driven adaptive agent framework with dual-level memory: stationary memory linking diverse visual features to stable functional semantics for robust action grounding and procedural memory capturing stable task intents across varying workflows. We propose a dynamic memory evolution mechanism that continuously refines both memories by prioritizing frequently accessed knowledge. Online benchmark AndroidWorld evaluations show substantial improvements over baselines, while offline benchmarks confirm consistent gains under distribution shifts. These results validate that leveraging stable structures across interface changes improves agent performance and generalization in evolving software environments.