Darwinian Memory: A Training-Free Self-Regulating Memory System for GUI Agent Evolution

作者: Hongze Mi, Yibo Feng, WenJie Lu, Song Cao, Jinyuan Li, Yanming Li, Xuelin Zhang, Haotian Luo, Songyang Peng, He Cui, Tengfei Tian, Jun Fang, Hua Chai, Naiqiang Tan

分类: cs.AI

发布日期: 2026-01-30

💡 一句话要点

提出达尔文记忆系统，解决GUI Agent在长程任务中的上下文不足问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: GUI自动化 多模态大语言模型 记忆系统 自进化学习 自然选择

📋 核心要点

现有GUI Agent在长程任务中面临上下文窗口限制，导致难以处理跨应用场景，记忆系统难以适应动态GUI环境。
达尔文记忆系统(DMS)通过模拟自然选择，动态管理记忆，分解轨迹为可重用单元，并根据效用进行自然选择，提升策略。
实验表明，DMS在无需训练的情况下，显著提升了MLLM Agent在多应用GUI任务中的成功率和执行稳定性，并降低了延迟。

📝 摘要（中文）

多模态大型语言模型(MLLM)Agent能够实现图形用户界面(GUI)的自动化，但由于上下文窗口的限制，难以处理长程、跨应用的任务。虽然记忆系统提供了一种可行的解决方案，但现有的方法难以适应动态的GUI环境，存在高层意图和低层执行之间的粒度不匹配，以及静态积累过时经验导致Agent产生幻觉的上下文污染问题。为了解决这些瓶颈，我们提出了达尔文记忆系统(DMS)，这是一种自进化架构，将记忆构建为一个由适者生存法则支配的动态生态系统。DMS将复杂的轨迹分解为独立的、可重用的单元，以实现组合灵活性，并实施效用驱动的自然选择来跟踪生存价值，主动修剪次优路径并抑制高风险计划。这种进化压力迫使Agent推导出更优越的策略。在真实世界的多应用基准测试中进行的大量实验验证了DMS在没有训练成本或架构开销的情况下提高了通用MLLM的性能，在成功率方面平均提高了18.0%，在执行稳定性方面提高了33.9%，同时降低了任务延迟，证明了它是一种有效的GUI任务自进化记忆系统。

🔬 方法详解

问题定义：现有的多模态大型语言模型(MLLM)Agent在处理图形用户界面(GUI)自动化任务时，尤其是在长程、跨应用场景下，面临着上下文窗口的限制。这导致Agent难以记住和利用历史信息，从而影响任务的成功率和执行稳定性。此外，现有的记忆系统难以适应动态变化的GUI环境，存在高层意图和低层执行之间的粒度不匹配问题，以及由于静态积累过时经验而导致的上下文污染问题，使得Agent容易产生幻觉。

核心思路：论文的核心思路是借鉴达尔文的进化论，将记忆系统构建为一个动态的生态系统，通过“适者生存”的机制来管理和优化记忆。具体来说，Agent会将复杂的任务轨迹分解为独立的、可重用的单元，并根据这些单元的效用（例如，成功率、执行效率）来评估其生存价值。然后，通过自然选择的过程，淘汰那些效用较低的单元，保留并强化那些效用较高的单元，从而使Agent能够不断学习和适应新的GUI环境。

技术框架：达尔文记忆系统(DMS)的整体架构包含以下几个主要模块：1) 轨迹分解模块：将复杂的任务轨迹分解为独立的、可重用的单元。2) 效用评估模块：根据单元的执行结果（例如，成功率、执行效率）来评估其生存价值。3) 自然选择模块：根据单元的生存价值，淘汰那些效用较低的单元，保留并强化那些效用较高的单元。4) 记忆存储与检索模块：负责存储和检索记忆单元，以便Agent在需要时可以利用这些单元来完成任务。

关键创新：DMS最重要的技术创新点在于其自进化的特性。与传统的记忆系统不同，DMS不需要人工干预或训练，而是通过模拟自然选择的过程，自动地学习和优化记忆。这种自进化的特性使得DMS能够更好地适应动态变化的GUI环境，并有效地解决上下文污染问题。此外，DMS将复杂的轨迹分解为可重用的单元，实现了组合灵活性，使得Agent能够更灵活地利用历史信息来完成任务。

关键设计：DMS的关键设计包括：1) 轨迹分解策略：如何将复杂的任务轨迹分解为独立的、可重用的单元。2) 效用评估函数：如何定义和计算单元的生存价值。3) 自然选择算法：如何根据单元的生存价值来淘汰和强化单元。4) 记忆存储与检索机制：如何高效地存储和检索记忆单元。论文中可能涉及具体的参数设置，例如效用评估函数的权重，自然选择算法的阈值等，但具体细节未知。

📊 实验亮点

实验结果表明，达尔文记忆系统(DMS)在真实世界的多应用基准测试中，无需训练成本或架构开销，即可显著提升通用MLLM Agent的性能。具体来说，DMS在成功率方面平均提高了18.0%，在执行稳定性方面提高了33.9%，同时降低了任务延迟。这些结果表明，DMS是一种有效的GUI任务自进化记忆系统。

🎯 应用场景

该研究成果可广泛应用于各种需要GUI自动化的场景，例如软件测试、流程自动化、智能助手等。通过达尔文记忆系统，Agent能够更好地理解和适应复杂的GUI环境，从而提高任务的成功率和效率。未来，该技术有望进一步扩展到其他领域，例如机器人控制、游戏AI等，实现更智能、更自主的自动化系统。

📄 摘要（原文）

Multimodal Large Language Model (MLLM) agents facilitate Graphical User Interface (GUI) automation but struggle with long-horizon, cross-application tasks due to limited context windows. While memory systems provide a viable solution, existing paradigms struggle to adapt to dynamic GUI environments, suffering from a granularity mismatch between high-level intent and low-level execution, and context pollution where the static accumulation of outdated experiences drives agents into hallucination. To address these bottlenecks, we propose the Darwinian Memory System (DMS), a self-evolving architecture that constructs memory as a dynamic ecosystem governed by the law of survival of the fittest. DMS decomposes complex trajectories into independent, reusable units for compositional flexibility, and implements Utility-driven Natural Selection to track survival value, actively pruning suboptimal paths and inhibiting high-risk plans. This evolutionary pressure compels the agent to derive superior strategies. Extensive experiments on real-world multi-app benchmarks validate that DMS boosts general-purpose MLLMs without training costs or architectural overhead, achieving average gains of 18.0% in success rate and 33.9% in execution stability, while reducing task latency, establishing it as an effective self-evolving memory system for GUI tasks.

Darwinian Memory: A Training-Free Self-Regulating Memory System for GUI Agent Evolution

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理