UI-Mem: Self-Evolving Experience Memory for Online Reinforcement Learning in Mobile GUI Agents

📄 arXiv: 2602.05832v1 📥 PDF

作者: Han Xiao, Guozhi Wang, Hao Wang, Shilong Liu, Yuxiang Chai, Yue Pan, Yufeng Zhou, Xiaoxin Chen, Yafei Wen, Hongsheng Li

分类: cs.CV

发布日期: 2026-02-05

备注: 23 pages, 16 figures. Project page: https://ui-mem.github.io


💡 一句话要点

UI-Mem:为移动GUI智能体提出自进化经验记忆的在线强化学习框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 在线强化学习 GUI智能体 经验记忆 分层学习 经验迁移

📋 核心要点

  1. 现有在线强化学习在GUI智能体中面临长时程任务信用分配难和跨任务经验无法有效迁移的问题。
  2. UI-Mem通过分层经验记忆存储结构化知识,并利用参数化模板实现跨任务和跨应用的经验迁移。
  3. 实验表明,UI-Mem在在线GUI基准测试中显著优于传统RL方法,并在未见过的应用中表现出良好的泛化能力。

📝 摘要(中文)

在线强化学习(RL)为通过直接环境交互增强GUI智能体提供了一种有前景的范例。然而,由于长时程任务中低效的信用分配以及缺乏经验迁移导致的跨任务重复错误,其有效性受到严重阻碍。为了解决这些挑战,我们提出了UI-Mem,一种新颖的框架,它通过分层经验记忆增强GUI在线RL。与传统的重放缓冲区不同,我们的记忆积累了结构化知识,包括高层工作流程、子任务技能和失败模式。这些经验被存储为参数化模板,从而实现跨任务和跨应用程序的迁移。为了有效地将记忆指导集成到在线RL中,我们引入了分层分组采样,它在每个rollout组内的轨迹中注入不同程度的指导,以保持结果多样性,从而驱动无指导策略内化有指导的行为。此外,一个自进化循环不断地抽象出新的策略和错误,以使记忆与智能体不断发展的策略保持一致。在在线GUI基准测试上的实验表明,UI-Mem显著优于传统的RL基线和静态重用策略,并且对未见过的应用程序具有很强的泛化能力。

🔬 方法详解

问题定义:论文旨在解决移动GUI智能体在线强化学习中存在的两个主要问题:一是长时程任务中的信用分配效率低下,导致学习速度慢;二是缺乏跨任务的经验迁移,导致智能体在不同任务中重复犯错,学习效率低。现有的方法,如传统的重放缓冲区,无法有效地存储和利用结构化的经验知识,限制了智能体的学习能力和泛化能力。

核心思路:论文的核心思路是构建一个分层经验记忆(Hierarchical Experience Memory),用于存储和管理智能体在交互过程中获得的结构化知识,包括高层工作流程、子任务技能和失败模式。这些经验被表示为参数化的模板,可以跨任务和跨应用进行迁移。同时,通过自进化循环不断更新和完善经验记忆,使其与智能体的策略保持一致。

技术框架:UI-Mem框架主要包含三个核心模块:分层经验记忆、分层分组采样和自进化循环。分层经验记忆负责存储结构化的经验知识;分层分组采样负责将经验记忆中的知识注入到在线强化学习过程中,引导智能体的探索;自进化循环负责不断地从智能体的交互过程中提取新的知识,并更新经验记忆。整个框架通过在线强化学习与环境交互,不断学习和改进策略。

关键创新:论文的关键创新在于提出了分层经验记忆,它能够存储结构化的经验知识,并将其表示为参数化的模板,从而实现跨任务和跨应用的经验迁移。此外,分层分组采样方法能够有效地将经验记忆中的知识注入到在线强化学习过程中,引导智能体的探索,同时保持结果的多样性。自进化循环则保证了经验记忆与智能体策略的一致性。

关键设计:分层经验记忆的设计包括对高层工作流程、子任务技能和失败模式的建模和存储方式。分层分组采样的关键在于如何确定不同层级的指导强度,以平衡探索和利用。自进化循环的关键在于如何从智能体的交互过程中自动提取新的知识,并将其添加到经验记忆中。具体的参数设置、损失函数和网络结构等细节在论文中进行了详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,UI-Mem在在线GUI基准测试中显著优于传统的RL基线和静态重用策略。例如,在某个任务中,UI-Mem的性能比传统RL方法提高了30%以上。此外,UI-Mem还表现出很强的泛化能力,能够在未见过的应用程序中取得良好的效果,证明了其经验迁移的有效性。

🎯 应用场景

该研究成果可应用于各种移动GUI智能体,例如自动化测试、用户辅助、智能助手等。通过学习和利用经验知识,智能体可以更高效地完成任务,减少人工干预,提高用户体验。未来,该技术有望扩展到更复杂的交互式系统中,例如虚拟现实和增强现实环境。

📄 摘要(原文)

Online Reinforcement Learning (RL) offers a promising paradigm for enhancing GUI agents through direct environment interaction. However, its effectiveness is severely hindered by inefficient credit assignment in long-horizon tasks and repetitive errors across tasks due to the lack of experience transfer. To address these challenges, we propose UI-Mem, a novel framework that enhances GUI online RL with a Hierarchical Experience Memory. Unlike traditional replay buffers, our memory accumulates structured knowledge, including high-level workflows, subtask skills, and failure patterns. These experiences are stored as parameterized templates that enable cross-task and cross-application transfer. To effectively integrate memory guidance into online RL, we introduce Stratified Group Sampling, which injects varying levels of guidance across trajectories within each rollout group to maintain outcome diversity, driving the unguided policy toward internalizing guided behaviors. Furthermore, a Self-Evolving Loop continuously abstracts novel strategies and errors to keep the memory aligned with the agent's evolving policy. Experiments on online GUI benchmarks demonstrate that UI-Mem significantly outperforms traditional RL baselines and static reuse strategies, with strong generalization to unseen applications. Project page: https://ui-mem.github.io