Learning How and What to Memorize: Cognition-Inspired Two-Stage Optimization for Evolving Memory
作者: Derong Xu, Shuochen Liu, Pengfei Luo, Pengyue Jia, Yingyi Zhang, Yi Wen, Yimin Deng, Wenlin Zhang, Enhong Chen, Xiangyu Zhao, Tong Xu
分类: cs.CL
发布日期: 2026-05-01
💡 一句话要点
提出MemCoE,通过认知启发的两阶段优化方法演化LLM Agent的记忆。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 记忆管理 强化学习 认知启发 个性化推荐
📋 核心要点
- 现有LLM Agent的记忆系统依赖静态规则或稀疏奖励的强化学习,难以有效跟踪用户偏好的演变。
- MemCoE借鉴认知科学,提出两阶段优化框架,分别学习记忆组织方式和信息更新策略。
- 实验表明,MemCoE在个性化记忆基准测试中优于现有方法,并展现出鲁棒性、可迁移性和效率。
📝 摘要(中文)
大型语言模型(LLM)Agent需要长期用户记忆以实现一致的个性化,但有限的上下文窗口阻碍了对长期交互中不断变化的偏好的跟踪。现有的记忆系统主要依赖于静态的、手工设计的更新规则;虽然基于强化学习(RL)的Agent可以学习记忆更新,但稀疏的结果奖励提供了微弱的监督,导致不稳定的长程优化。借鉴记忆模式理论以及前额叶区域和海马区域之间的功能划分,我们引入了MemCoE,这是一种认知启发的两阶段优化框架,用于学习如何组织记忆以及更新哪些信息。在第一阶段,我们提出记忆指导归纳,通过对比反馈(解释为文本梯度)来优化全局指导;在第二阶段,指导对齐的记忆策略优化使用诱导的指导来定义结构化的过程奖励,并执行多轮RL来学习遵循指导的记忆演化策略。我们在三个个性化记忆基准上进行了评估,涵盖显式/隐式偏好以及不同的大小和噪声,并观察到相对于强大的基线的持续改进,具有良好的鲁棒性、可转移性和效率。
🔬 方法详解
问题定义:大型语言模型Agent在长期交互中需要维护用户记忆以实现个性化,但有限的上下文窗口难以跟踪用户偏好的演变。现有方法主要依赖手工设计的静态更新规则,或者使用强化学习进行记忆更新,但后者面临奖励稀疏、优化不稳定的问题。
核心思路:借鉴认知科学中的记忆模式理论,将记忆过程分解为两个阶段:记忆组织和信息更新。通过学习全局指导原则来组织记忆,并利用该指导原则来优化信息更新策略,从而实现更有效的记忆管理。这种设计模拟了人脑中前额叶和海马体在记忆过程中的不同作用。
技术框架:MemCoE框架包含两个主要阶段:1) 记忆指导归纳(Memory Guideline Induction):通过对比学习,利用文本梯度作为反馈,优化一个全局的记忆指导原则。2) 指导对齐的记忆策略优化(Guideline-Aligned Memory Policy Optimization):利用第一阶段学习到的指导原则,定义结构化的过程奖励,并使用强化学习来学习一个遵循指导原则的记忆演化策略。
关键创新:MemCoE的关键创新在于其认知启发的两阶段优化框架。与传统的单阶段方法相比,MemCoE将记忆过程分解为记忆组织和信息更新两个阶段,并分别进行优化,从而提高了记忆管理的效率和效果。此外,利用文本梯度作为对比学习的反馈,可以更有效地学习全局的记忆指导原则。
关键设计:在记忆指导归纳阶段,使用对比学习来优化记忆指导原则。对比学习的目标是使相似的记忆状态在嵌入空间中更接近,而不同的记忆状态更远离。文本梯度被用作对比学习的反馈信号,以指导记忆指导原则的更新。在指导对齐的记忆策略优化阶段,使用强化学习来学习记忆演化策略。过程奖励的设计基于记忆指导原则,以鼓励Agent遵循指导原则进行记忆更新。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MemCoE在三个个性化记忆基准测试中均优于现有方法。例如,在某个基准测试中,MemCoE相对于最强的基线方法取得了显著的性能提升,同时展现出良好的鲁棒性、可迁移性和效率。这些结果验证了MemCoE的有效性和优越性。
🎯 应用场景
MemCoE可应用于各种需要长期记忆的LLM Agent应用场景,例如个性化推荐系统、智能客服、对话式AI等。通过更有效地管理和利用用户记忆,MemCoE可以提高Agent的个性化水平、交互质量和用户满意度。未来,该方法可以扩展到更复杂的记忆结构和更丰富的交互场景。
📄 摘要(原文)
Large language model (LLM) agents require long-term user memory for consistent personalization, but limited context windows hinder tracking evolving preferences over long interactions. Existing memory systems mainly rely on static, hand-crafted update rules; although reinforcement learning (RL)-based agents learn memory updates, sparse outcome rewards provide weak supervision, resulting in unstable long-horizon optimization. Drawing on memory schema theory and the functional division between prefrontal regions and hippocampus regions, we introduce MemCoE, a cognition-inspired two-stage optimization framework that learns how memory should be organized and what information to update. In the first stage, we propose Memory Guideline Induction to optimize a global guideline via contrastive feedback interpreted as textual gradients; in the second stage, Guideline-Aligned Memory Policy Optimization uses the induced guideline to define structured process rewards and performs multi-turn RL to learn a guideline-following memory evolution policy. We evaluate on three personalization memory benchmarks, covering explicit/implicit preference and different sizes and noise, and observe consistent improvements over strong baselines with favorable robustness, transferability, and efficiency.