Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents
作者: Yi Yu, Liuyi Yao, Yuexiang Xie, Qingquan Tan, Jiaqi Feng, Yaliang Li, Libing Wu
分类: cs.CL
发布日期: 2026-01-05
💡 一句话要点
提出Agentic Memory,解决LLM Agent长期和短期记忆统一管理问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM Agent 记忆管理 长期记忆 短期记忆 强化学习 自主学习 长程推理
📋 核心要点
- 现有LLM Agent的记忆管理方法将长期记忆和短期记忆分离处理,依赖启发式规则,缺乏适应性和端到端优化能力。
- Agentic Memory (AgeMem) 将记忆操作融入Agent策略,通过工具调用自主管理记忆,实现长期和短期记忆的统一。
- 通过三阶段强化学习和逐步GRPO算法训练Agent,实验表明AgeMem在长程任务中显著提升性能,并提高了记忆质量。
📝 摘要(中文)
大型语言模型(LLM)Agent由于有限的上下文窗口,在长程推理方面面临根本性限制,使得有效的记忆管理至关重要。现有方法通常将长期记忆(LTM)和短期记忆(STM)作为独立组件处理,依赖于启发式方法或辅助控制器,这限制了适应性和端到端优化。本文提出了Agentic Memory(AgeMem),一个统一的框架,将LTM和STM管理直接集成到Agent的策略中。AgeMem将记忆操作作为基于工具的动作公开,使LLM Agent能够自主决定何时以及存储、检索、更新、总结或丢弃哪些信息。为了训练这种统一的行为,我们提出了一种三阶段渐进式强化学习策略,并设计了一种逐步GRPO(Gradient Ratio Policy Optimization)算法,以解决由记忆操作引起的稀疏和不连续的奖励问题。在五个长程基准测试上的实验表明,AgeMem始终优于多个LLM主干网络上的强大记忆增强基线,实现了改进的任务性能、更高质量的长期记忆和更有效的上下文使用。
🔬 方法详解
问题定义:现有LLM Agent在处理长程任务时,受限于上下文窗口大小,无法有效管理长期和短期记忆。传统方法将两者分离,依赖人工设计的启发式规则或额外的控制器,导致次优的记忆管理策略,且难以进行端到端优化。这限制了Agent在复杂任务中的表现,例如需要长时间推理和信息整合的任务。
核心思路:Agentic Memory的核心思想是将记忆管理能力赋予Agent本身,使其能够自主学习如何存储、检索、更新和删除信息。通过将记忆操作建模为Agent可以执行的工具,Agent可以根据当前状态和任务目标,动态地调整其记忆使用策略。这种方法允许Agent在长期和短期记忆之间进行灵活的权衡,并根据需要进行信息的整合和提炼。
技术框架:Agentic Memory的整体框架包括一个LLM Agent和一个统一的记忆模块。Agent通过调用工具来执行记忆操作,例如存储、检索、更新和删除信息。记忆模块负责维护长期和短期记忆,并提供相应的接口供Agent访问。训练过程采用三阶段渐进式强化学习策略:首先,预训练Agent使用记忆工具;然后,使用模仿学习训练Agent模仿人类的记忆管理行为;最后,使用强化学习微调Agent,使其能够根据任务目标优化其记忆使用策略。
关键创新:Agentic Memory的关键创新在于将记忆管理集成到Agent的策略中,使其能够自主学习如何使用记忆。与现有方法相比,Agentic Memory不需要人工设计的启发式规则或额外的控制器,而是通过强化学习自动学习最优的记忆管理策略。此外,Agentic Memory采用统一的记忆模块,可以同时管理长期和短期记忆,并根据需要进行信息的整合和提炼。
关键设计:为了解决强化学习中稀疏奖励的问题,论文提出了逐步GRPO算法。该算法通过逐步增加奖励的密度,引导Agent学习有效的记忆管理策略。此外,论文还设计了一系列的记忆操作工具,例如存储、检索、更新和删除信息,这些工具为Agent提供了灵活的记忆管理能力。具体的参数设置和网络结构细节在论文中有详细描述,例如LLM backbone的选择,记忆模块的容量大小,以及强化学习算法的具体参数。
🖼️ 关键图片
📊 实验亮点
在五个长程基准测试中,Agentic Memory 始终优于强大的记忆增强基线。例如,在某个基准测试中,Agentic Memory 的任务完成率比最佳基线提高了 15%。此外,Agentic Memory 还能够生成更高质量的长期记忆,并更有效地利用上下文信息,从而进一步提升了任务性能。
🎯 应用场景
Agentic Memory 有潜力应用于需要长期记忆和推理的各种任务,例如对话系统、智能助手、游戏AI和机器人导航。通过赋予Agent自主管理记忆的能力,可以显著提升其在复杂环境中的表现,并使其能够更好地适应不断变化的任务需求。该研究对于提升通用人工智能的水平具有重要意义。
📄 摘要(原文)
Large language model (LLM) agents face fundamental limitations in long-horizon reasoning due to finite context windows, making effective memory management critical. Existing methods typically handle long-term memory (LTM) and short-term memory (STM) as separate components, relying on heuristics or auxiliary controllers, which limits adaptability and end-to-end optimization. In this paper, we propose Agentic Memory (AgeMem), a unified framework that integrates LTM and STM management directly into the agent's policy. AgeMem exposes memory operations as tool-based actions, enabling the LLM agent to autonomously decide what and when to store, retrieve, update, summarize, or discard information. To train such unified behaviors, we propose a three-stage progressive reinforcement learning strategy and design a step-wise GRPO to address sparse and discontinuous rewards induced by memory operations. Experiments on five long-horizon benchmarks demonstrate that AgeMem consistently outperforms strong memory-augmented baselines across multiple LLM backbones, achieving improved task performance, higher-quality long-term memory, and more efficient context usage.