Learning How and What to Memorize: Cognition-Inspired Two-Stage Optimization for Evolving Memory

作者: Derong Xu, Shuochen Liu, Pengfei Luo, Pengyue Jia, Yingyi Zhang, Yi Wen, Yimin Deng, Wenlin Zhang, Enhong Chen, Xiangyu Zhao, Tong Xu

分类: cs.CL

发布日期: 2026-05-01

💡 一句话要点

提出MemCoE，通过认知启发的两阶段优化方法演化LLM Agent的记忆。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 记忆管理 强化学习 认知启发 个性化推荐

📋 核心要点

现有LLM Agent的记忆系统依赖静态规则或稀疏奖励的强化学习，难以有效跟踪用户偏好的演变。
MemCoE借鉴认知科学，提出两阶段优化框架，分别学习记忆组织方式和信息更新策略。
实验表明，MemCoE在个性化记忆基准测试中优于现有方法，并展现出鲁棒性、可迁移性和效率。

📝 摘要（中文）

大型语言模型（LLM）Agent需要长期用户记忆以实现一致的个性化，但有限的上下文窗口阻碍了对长期交互中不断变化的偏好的跟踪。现有的记忆系统主要依赖于静态的、手工设计的更新规则；虽然基于强化学习（RL）的Agent可以学习记忆更新，但稀疏的结果奖励提供了微弱的监督，导致不稳定的长程优化。借鉴记忆模式理论以及前额叶区域和海马区域之间的功能划分，我们引入了MemCoE，这是一种认知启发的两阶段优化框架，用于学习如何组织记忆以及更新哪些信息。在第一阶段，我们提出记忆指导归纳，通过对比反馈（解释为文本梯度）来优化全局指导；在第二阶段，指导对齐的记忆策略优化使用诱导的指导来定义结构化的过程奖励，并执行多轮RL来学习遵循指导的记忆演化策略。我们在三个个性化记忆基准上进行了评估，涵盖显式/隐式偏好以及不同的大小和噪声，并观察到相对于强大的基线的持续改进，具有良好的鲁棒性、可转移性和效率。

🔬 方法详解

问题定义：大型语言模型Agent在长期交互中需要维护用户记忆以实现个性化，但有限的上下文窗口难以跟踪用户偏好的演变。现有方法主要依赖手工设计的静态更新规则，或者使用强化学习进行记忆更新，但后者面临奖励稀疏、优化不稳定的问题。

核心思路：借鉴认知科学中的记忆模式理论，将记忆过程分解为两个阶段：记忆组织和信息更新。通过学习全局指导原则来组织记忆，并利用该指导原则来优化信息更新策略，从而实现更有效的记忆管理。这种设计模拟了人脑中前额叶和海马体在记忆过程中的不同作用。

技术框架：MemCoE框架包含两个主要阶段：1) 记忆指导归纳（Memory Guideline Induction）：通过对比学习，利用文本梯度作为反馈，优化一个全局的记忆指导原则。2) 指导对齐的记忆策略优化（Guideline-Aligned Memory Policy Optimization）：利用第一阶段学习到的指导原则，定义结构化的过程奖励，并使用强化学习来学习一个遵循指导原则的记忆演化策略。

关键创新：MemCoE的关键创新在于其认知启发的两阶段优化框架。与传统的单阶段方法相比，MemCoE将记忆过程分解为记忆组织和信息更新两个阶段，并分别进行优化，从而提高了记忆管理的效率和效果。此外，利用文本梯度作为对比学习的反馈，可以更有效地学习全局的记忆指导原则。

关键设计：在记忆指导归纳阶段，使用对比学习来优化记忆指导原则。对比学习的目标是使相似的记忆状态在嵌入空间中更接近，而不同的记忆状态更远离。文本梯度被用作对比学习的反馈信号，以指导记忆指导原则的更新。在指导对齐的记忆策略优化阶段，使用强化学习来学习记忆演化策略。过程奖励的设计基于记忆指导原则，以鼓励Agent遵循指导原则进行记忆更新。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MemCoE在三个个性化记忆基准测试中均优于现有方法。例如，在某个基准测试中，MemCoE相对于最强的基线方法取得了显著的性能提升，同时展现出良好的鲁棒性、可迁移性和效率。这些结果验证了MemCoE的有效性和优越性。

🎯 应用场景

MemCoE可应用于各种需要长期记忆的LLM Agent应用场景，例如个性化推荐系统、智能客服、对话式AI等。通过更有效地管理和利用用户记忆，MemCoE可以提高Agent的个性化水平、交互质量和用户满意度。未来，该方法可以扩展到更复杂的记忆结构和更丰富的交互场景。

📄 摘要（原文）

Large language model (LLM) agents require long-term user memory for consistent personalization, but limited context windows hinder tracking evolving preferences over long interactions. Existing memory systems mainly rely on static, hand-crafted update rules; although reinforcement learning (RL)-based agents learn memory updates, sparse outcome rewards provide weak supervision, resulting in unstable long-horizon optimization. Drawing on memory schema theory and the functional division between prefrontal regions and hippocampus regions, we introduce MemCoE, a cognition-inspired two-stage optimization framework that learns how memory should be organized and what information to update. In the first stage, we propose Memory Guideline Induction to optimize a global guideline via contrastive feedback interpreted as textual gradients; in the second stage, Guideline-Aligned Memory Policy Optimization uses the induced guideline to define structured process rewards and performs multi-turn RL to learn a guideline-following memory evolution policy. We evaluate on three personalization memory benchmarks, covering explicit/implicit preference and different sizes and noise, and observe consistent improvements over strong baselines with favorable robustness, transferability, and efficiency.

Learning How and What to Memorize: Cognition-Inspired Two-Stage Optimization for Evolving Memory

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理