MementoGUI: Learning Agentic Multimodal Memory Control for Long-Horizon GUI Agents

作者: Ziyun Zeng, Hang Hua, Bocheng Zou, Mu Cai, Rogerio Feris, Jiebo Luo

分类: cs.CV

发布日期: 2026-05-18

备注: Preprint, 15 pages, 4 figures, 5 tables

💡 一句话要点

MementoGUI：面向长时GUI智能体的可学习Agentic多模态记忆控制框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: GUI智能体 长时任务 记忆控制 多模态学习 Agentic记忆

📋 核心要点

现有GUI智能体在长时任务中难以维持任务状态，因为它们要么被冗余截图淹没，要么丢失了未来决策所需的局部视觉证据。
MementoGUI的核心思想是使用一个学习到的控制器MementoCore，在线选择、压缩和检索记忆，从而更有效地利用历史信息。
实验结果表明，MementoGUI在多个数据集上显著优于现有方法，并且更大的MementoCore网络可以进一步提升性能。

📝 摘要（中文）

本文提出MementoGUI，一个插件式的agentic记忆框架，旨在提升基于MLLM的GUI智能体在长时任务中的表现。MementoGUI通过学习到的控制器MementoCore，实现在线记忆的选择、压缩和检索。不同于将交互历史视为固定上下文，MementoGUI将长时GUI控制建模为在线记忆控制问题：工作记忆选择性地保留任务相关的界面事件，包含文本摘要和ROI级别的视觉证据；情景记忆通过学习到的相关性选择，检索可复用的历史轨迹。MementoCore将记忆控制模块化为步骤处理、记忆压缩、情景写入和情景选择等专门算子，无需微调GUI智能体主干网络即可实现插件式记忆增强。此外，本文还开发了一个可扩展的数据管理流程，将计算机使用轨迹转换为记忆控制器训练数据，引入MementoGUI-Bench用于评估GUI智能体中的长时决策，并设计基于MLLM的指标用于语义动作匹配、任务进度和记忆一致性。在GUI-Odyssey、MM-Mind2Web和MementoGUI-Bench上的实验表明，MementoGUI始终优于无历史、历史回放和纯文本记忆基线，更大的MementoCore主干网络进一步加强了记忆增强的GUI控制。

🔬 方法详解

问题定义：现有GUI智能体在处理需要跨多个界面转换的长时任务时表现不佳。它们通常依赖原始历史回放或纯文本记忆，前者会因包含大量冗余截图而使模型不堪重负，后者则会丢弃对未来决策至关重要的局部视觉证据。因此，如何有效地管理和利用历史交互信息，是长时GUI智能体面临的关键问题。

核心思路：MementoGUI的核心思路是将长时GUI控制建模为一个在线记忆控制问题。它不是简单地将交互历史视为固定上下文，而是通过一个学习到的控制器（MementoCore）来动态地选择、压缩和检索记忆。这种方法允许智能体只保留与当前任务相关的关键信息，并有效地利用历史经验。

技术框架：MementoGUI是一个插件式的记忆框架，可以与现有的MLLM-based GUI智能体集成。其主要组成部分包括：1) MementoCore：一个学习到的控制器，负责在线记忆的选择、压缩和检索。2) 工作记忆：用于存储当前任务相关的界面事件，包括文本摘要和ROI级别的视觉证据。3) 情景记忆：用于存储可复用的历史轨迹。MementoCore包含四个主要模块：步骤处理、记忆压缩、情景写入和情景选择。

关键创新：MementoGUI的关键创新在于其agentic记忆控制机制。与传统的记忆方法不同，MementoGUI不是被动地存储和检索信息，而是主动地学习哪些信息是重要的，以及何时需要检索哪些信息。这种agentic方法使得智能体能够更有效地利用历史信息，从而提高其在长时任务中的表现。此外，MementoGUI的模块化设计使得它可以很容易地与不同的GUI智能体集成，而无需进行大量的修改。

关键设计：MementoCore的训练数据是通过一个可扩展的数据管理流程生成的，该流程将计算机使用轨迹转换为记忆控制器训练数据。为了评估MementoGUI的性能，作者还引入了MementoGUI-Bench，这是一个用于评估GUI智能体长时决策的新基准。此外，作者还设计了基于MLLM的指标，用于评估语义动作匹配、任务进度和记忆一致性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MementoGUI在GUI-Odyssey、MM-Mind2Web和MementoGUI-Bench等数据集上均取得了显著的性能提升。例如，在GUI-Odyssey数据集上，MementoGUI相比于无历史基线提高了10%以上的任务完成率。此外，实验还表明，更大的MementoCore主干网络可以进一步提高性能，表明该方法具有良好的可扩展性。

🎯 应用场景

MementoGUI具有广泛的应用前景，例如自动化办公、智能助手、软件测试等。它可以帮助用户更高效地完成复杂的GUI操作，减少人工干预，提高工作效率。未来，该技术有望应用于更复杂的交互式系统中，例如虚拟现实和增强现实环境。

📄 摘要（原文）

Recent GUI agents have made substantial progress in visual grounding and action prediction, yet they remain brittle in long-horizon tasks that require maintaining task state across many interface transitions. Existing agents typically rely on raw history replay or text-only memory, which either overwhelms the model with redundant screenshots or discards localized visual evidence needed for future decisions. To address these limitations, we introduce \textbf{MementoGUI}, a plug-in agentic memory framework that equips MLLM-based GUI agents with \textbf{MementoCore}, a learned controller for online memory selection, compression, and retrieval. Rather than treating interaction history as a fixed context, MementoGUI formulates long-horizon GUI control as an online memory-control problem: working memory selectively preserves task-relevant interface events with textual summaries and ROI-level visual evidence, while episodic memory retrieves reusable past trajectories through learned relevance selection. MementoCore modularizes memory control into specialized operators for step processing, memory compression, episodic writing, and episodic selection, enabling plug-in memory augmentation without finetuning the GUI agent backbone. We further develop a scalable data curation pipeline that converts computer-use trajectories into memory-controller training data, introduce \textbf{MementoGUI-Bench} for evaluating long-horizon decision-making in GUI agents, and design MLLM-based metrics for semantic action matching, task progress, and memory consistency. Experiments on GUI-Odyssey, MM-Mind2Web, and MementoGUI-Bench show that MementoGUI consistently improves GUI agents over no-history, history-replay, and text-only memory baselines, with larger MementoCore backbones further strengthening memory-augmented GUI control.

MementoGUI: Learning Agentic Multimodal Memory Control for Long-Horizon GUI Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理