Darwinian Memory: A Training-Free Self-Regulating Memory System for GUI Agent Evolution
作者: Hongze Mi, Yibo Feng, WenJie Lu, Song Cao, Jinyuan Li, Yanming Li, Xuelin Zhang, Haotian Luo, Songyang Peng, He Cui, Tengfei Tian, Jun Fang, Hua Chai, Naiqiang Tan
分类: cs.AI
发布日期: 2026-01-30
💡 一句话要点
提出达尔文记忆系统,解决GUI Agent在长程任务中的上下文不足问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: GUI自动化 多模态大语言模型 记忆系统 自进化学习 自然选择
📋 核心要点
- 现有GUI Agent在长程任务中面临上下文窗口限制,导致难以处理跨应用场景,记忆系统难以适应动态GUI环境。
- 达尔文记忆系统(DMS)通过模拟自然选择,动态管理记忆,分解轨迹为可重用单元,并根据效用进行自然选择,提升策略。
- 实验表明,DMS在无需训练的情况下,显著提升了MLLM Agent在多应用GUI任务中的成功率和执行稳定性,并降低了延迟。
📝 摘要(中文)
多模态大型语言模型(MLLM)Agent能够实现图形用户界面(GUI)的自动化,但由于上下文窗口的限制,难以处理长程、跨应用的任务。虽然记忆系统提供了一种可行的解决方案,但现有的方法难以适应动态的GUI环境,存在高层意图和低层执行之间的粒度不匹配,以及静态积累过时经验导致Agent产生幻觉的上下文污染问题。为了解决这些瓶颈,我们提出了达尔文记忆系统(DMS),这是一种自进化架构,将记忆构建为一个由适者生存法则支配的动态生态系统。DMS将复杂的轨迹分解为独立的、可重用的单元,以实现组合灵活性,并实施效用驱动的自然选择来跟踪生存价值,主动修剪次优路径并抑制高风险计划。这种进化压力迫使Agent推导出更优越的策略。在真实世界的多应用基准测试中进行的大量实验验证了DMS在没有训练成本或架构开销的情况下提高了通用MLLM的性能,在成功率方面平均提高了18.0%,在执行稳定性方面提高了33.9%,同时降低了任务延迟,证明了它是一种有效的GUI任务自进化记忆系统。
🔬 方法详解
问题定义:现有的多模态大型语言模型(MLLM)Agent在处理图形用户界面(GUI)自动化任务时,尤其是在长程、跨应用场景下,面临着上下文窗口的限制。这导致Agent难以记住和利用历史信息,从而影响任务的成功率和执行稳定性。此外,现有的记忆系统难以适应动态变化的GUI环境,存在高层意图和低层执行之间的粒度不匹配问题,以及由于静态积累过时经验而导致的上下文污染问题,使得Agent容易产生幻觉。
核心思路:论文的核心思路是借鉴达尔文的进化论,将记忆系统构建为一个动态的生态系统,通过“适者生存”的机制来管理和优化记忆。具体来说,Agent会将复杂的任务轨迹分解为独立的、可重用的单元,并根据这些单元的效用(例如,成功率、执行效率)来评估其生存价值。然后,通过自然选择的过程,淘汰那些效用较低的单元,保留并强化那些效用较高的单元,从而使Agent能够不断学习和适应新的GUI环境。
技术框架:达尔文记忆系统(DMS)的整体架构包含以下几个主要模块:1) 轨迹分解模块:将复杂的任务轨迹分解为独立的、可重用的单元。2) 效用评估模块:根据单元的执行结果(例如,成功率、执行效率)来评估其生存价值。3) 自然选择模块:根据单元的生存价值,淘汰那些效用较低的单元,保留并强化那些效用较高的单元。4) 记忆存储与检索模块:负责存储和检索记忆单元,以便Agent在需要时可以利用这些单元来完成任务。
关键创新:DMS最重要的技术创新点在于其自进化的特性。与传统的记忆系统不同,DMS不需要人工干预或训练,而是通过模拟自然选择的过程,自动地学习和优化记忆。这种自进化的特性使得DMS能够更好地适应动态变化的GUI环境,并有效地解决上下文污染问题。此外,DMS将复杂的轨迹分解为可重用的单元,实现了组合灵活性,使得Agent能够更灵活地利用历史信息来完成任务。
关键设计:DMS的关键设计包括:1) 轨迹分解策略:如何将复杂的任务轨迹分解为独立的、可重用的单元。2) 效用评估函数:如何定义和计算单元的生存价值。3) 自然选择算法:如何根据单元的生存价值来淘汰和强化单元。4) 记忆存储与检索机制:如何高效地存储和检索记忆单元。论文中可能涉及具体的参数设置,例如效用评估函数的权重,自然选择算法的阈值等,但具体细节未知。
📊 实验亮点
实验结果表明,达尔文记忆系统(DMS)在真实世界的多应用基准测试中,无需训练成本或架构开销,即可显著提升通用MLLM Agent的性能。具体来说,DMS在成功率方面平均提高了18.0%,在执行稳定性方面提高了33.9%,同时降低了任务延迟。这些结果表明,DMS是一种有效的GUI任务自进化记忆系统。
🎯 应用场景
该研究成果可广泛应用于各种需要GUI自动化的场景,例如软件测试、流程自动化、智能助手等。通过达尔文记忆系统,Agent能够更好地理解和适应复杂的GUI环境,从而提高任务的成功率和效率。未来,该技术有望进一步扩展到其他领域,例如机器人控制、游戏AI等,实现更智能、更自主的自动化系统。
📄 摘要(原文)
Multimodal Large Language Model (MLLM) agents facilitate Graphical User Interface (GUI) automation but struggle with long-horizon, cross-application tasks due to limited context windows. While memory systems provide a viable solution, existing paradigms struggle to adapt to dynamic GUI environments, suffering from a granularity mismatch between high-level intent and low-level execution, and context pollution where the static accumulation of outdated experiences drives agents into hallucination. To address these bottlenecks, we propose the Darwinian Memory System (DMS), a self-evolving architecture that constructs memory as a dynamic ecosystem governed by the law of survival of the fittest. DMS decomposes complex trajectories into independent, reusable units for compositional flexibility, and implements Utility-driven Natural Selection to track survival value, actively pruning suboptimal paths and inhibiting high-risk plans. This evolutionary pressure compels the agent to derive superior strategies. Extensive experiments on real-world multi-app benchmarks validate that DMS boosts general-purpose MLLMs without training costs or architectural overhead, achieving average gains of 18.0% in success rate and 33.9% in execution stability, while reducing task latency, establishing it as an effective self-evolving memory system for GUI tasks.