Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents

作者: Yi Yu, Liuyi Yao, Yuexiang Xie, Qingquan Tan, Jiaqi Feng, Yaliang Li, Libing Wu

分类: cs.CL

发布日期: 2026-01-05

💡 一句话要点

提出Agentic Memory，解决LLM Agent长期和短期记忆统一管理问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 记忆管理 长期记忆 短期记忆 强化学习 自主学习 长程推理

📋 核心要点

现有LLM Agent的记忆管理方法将长期记忆和短期记忆分离处理，依赖启发式规则，缺乏适应性和端到端优化能力。
Agentic Memory (AgeMem) 将记忆操作融入Agent策略，通过工具调用自主管理记忆，实现长期和短期记忆的统一。
通过三阶段强化学习和逐步GRPO算法训练Agent，实验表明AgeMem在长程任务中显著提升性能，并提高了记忆质量。

📝 摘要（中文）

大型语言模型（LLM）Agent由于有限的上下文窗口，在长程推理方面面临根本性限制，使得有效的记忆管理至关重要。现有方法通常将长期记忆（LTM）和短期记忆（STM）作为独立组件处理，依赖于启发式方法或辅助控制器，这限制了适应性和端到端优化。本文提出了Agentic Memory（AgeMem），一个统一的框架，将LTM和STM管理直接集成到Agent的策略中。AgeMem将记忆操作作为基于工具的动作公开，使LLM Agent能够自主决定何时以及存储、检索、更新、总结或丢弃哪些信息。为了训练这种统一的行为，我们提出了一种三阶段渐进式强化学习策略，并设计了一种逐步GRPO（Gradient Ratio Policy Optimization）算法，以解决由记忆操作引起的稀疏和不连续的奖励问题。在五个长程基准测试上的实验表明，AgeMem始终优于多个LLM主干网络上的强大记忆增强基线，实现了改进的任务性能、更高质量的长期记忆和更有效的上下文使用。

🔬 方法详解

问题定义：现有LLM Agent在处理长程任务时，受限于上下文窗口大小，无法有效管理长期和短期记忆。传统方法将两者分离，依赖人工设计的启发式规则或额外的控制器，导致次优的记忆管理策略，且难以进行端到端优化。这限制了Agent在复杂任务中的表现，例如需要长时间推理和信息整合的任务。

核心思路：Agentic Memory的核心思想是将记忆管理能力赋予Agent本身，使其能够自主学习如何存储、检索、更新和删除信息。通过将记忆操作建模为Agent可以执行的工具，Agent可以根据当前状态和任务目标，动态地调整其记忆使用策略。这种方法允许Agent在长期和短期记忆之间进行灵活的权衡，并根据需要进行信息的整合和提炼。

技术框架：Agentic Memory的整体框架包括一个LLM Agent和一个统一的记忆模块。Agent通过调用工具来执行记忆操作，例如存储、检索、更新和删除信息。记忆模块负责维护长期和短期记忆，并提供相应的接口供Agent访问。训练过程采用三阶段渐进式强化学习策略：首先，预训练Agent使用记忆工具；然后，使用模仿学习训练Agent模仿人类的记忆管理行为；最后，使用强化学习微调Agent，使其能够根据任务目标优化其记忆使用策略。

关键创新：Agentic Memory的关键创新在于将记忆管理集成到Agent的策略中，使其能够自主学习如何使用记忆。与现有方法相比，Agentic Memory不需要人工设计的启发式规则或额外的控制器，而是通过强化学习自动学习最优的记忆管理策略。此外，Agentic Memory采用统一的记忆模块，可以同时管理长期和短期记忆，并根据需要进行信息的整合和提炼。

关键设计：为了解决强化学习中稀疏奖励的问题，论文提出了逐步GRPO算法。该算法通过逐步增加奖励的密度，引导Agent学习有效的记忆管理策略。此外，论文还设计了一系列的记忆操作工具，例如存储、检索、更新和删除信息，这些工具为Agent提供了灵活的记忆管理能力。具体的参数设置和网络结构细节在论文中有详细描述，例如LLM backbone的选择，记忆模块的容量大小，以及强化学习算法的具体参数。

🖼️ 关键图片

📊 实验亮点

在五个长程基准测试中，Agentic Memory 始终优于强大的记忆增强基线。例如，在某个基准测试中，Agentic Memory 的任务完成率比最佳基线提高了 15%。此外，Agentic Memory 还能够生成更高质量的长期记忆，并更有效地利用上下文信息，从而进一步提升了任务性能。

🎯 应用场景

Agentic Memory 有潜力应用于需要长期记忆和推理的各种任务，例如对话系统、智能助手、游戏AI和机器人导航。通过赋予Agent自主管理记忆的能力，可以显著提升其在复杂环境中的表现，并使其能够更好地适应不断变化的任务需求。该研究对于提升通用人工智能的水平具有重要意义。

📄 摘要（原文）

Large language model (LLM) agents face fundamental limitations in long-horizon reasoning due to finite context windows, making effective memory management critical. Existing methods typically handle long-term memory (LTM) and short-term memory (STM) as separate components, relying on heuristics or auxiliary controllers, which limits adaptability and end-to-end optimization. In this paper, we propose Agentic Memory (AgeMem), a unified framework that integrates LTM and STM management directly into the agent's policy. AgeMem exposes memory operations as tool-based actions, enabling the LLM agent to autonomously decide what and when to store, retrieve, update, summarize, or discard information. To train such unified behaviors, we propose a three-stage progressive reinforcement learning strategy and design a step-wise GRPO to address sparse and discontinuous rewards induced by memory operations. Experiments on five long-horizon benchmarks demonstrate that AgeMem consistently outperforms strong memory-augmented baselines across multiple LLM backbones, achieving improved task performance, higher-quality long-term memory, and more efficient context usage.

Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册