Mem-$π$: Adaptive Memory through Learning When and What to Generate

作者: Xiaoqiang Wang, Chao Wang, Hadi Nekoei, Christopher Pal, Alexandre Lacoste, Spandana Gella, Bang Liu, Perouz Taslakian

分类: cs.CL, cs.AI

发布日期: 2026-05-20

备注: Work in progress

💡 一句话要点

提出Mem-$π$，通过学习何时以及生成什么来构建LLM Agent的自适应记忆。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自适应记忆 大型语言模型 强化学习 Agent 上下文学习

📋 核心要点

现有记忆增强Agent依赖相似性检索，返回静态条目，与上下文不符。
Mem-$π$使用独立语言/视觉-语言模型，按需生成上下文相关的指导。
强化学习训练Mem-$π$，使其学会何时生成指导以及生成何种指导，提升任务性能。

📝 摘要（中文）

本文提出Mem-$π$，一个用于大型语言模型（LLM）Agent的自适应记忆框架，它按需生成有用的指导，而不是从外部记忆存储中检索。现有的记忆增强Agent通常依赖于从情景记忆库或技能库中进行基于相似性的检索，返回的静态条目常常与当前上下文不一致。相比之下，Mem-$π$使用一个专用的语言或视觉-语言模型，该模型具有与下游Agent分离的参数，从而为复杂任务生成特定于上下文的指导。在当前Agent上下文的条件下，该模型共同决定何时生成指导以及生成什么指导。我们使用决策-内容解耦的强化学习（RL）目标来训练它，使其能够在生成无助于任务时选择放弃，否则生成简洁、有用的指导。在涵盖Web导航、基于终端的工具使用和基于文本的具身交互等各种Agent基准测试中，Mem-$π$始终优于基于检索和先前RL优化的记忆基线，在Web导航任务上实现了超过30%的相对改进。

🔬 方法详解

问题定义：现有的大型语言模型Agent在处理复杂任务时，依赖于从外部记忆库检索信息，但这种基于相似性的检索方法返回的静态信息往往与当前上下文不匹配，导致Agent无法有效地利用记忆。因此，如何使Agent能够根据当前上下文自适应地生成有用的指导信息，是一个亟待解决的问题。

核心思路：Mem-$π$的核心思路是使用一个独立的语言或视觉-语言模型，该模型与下游Agent的参数分离，专门用于生成上下文相关的指导信息。该模型通过强化学习进行训练，学习何时生成指导以及生成何种指导，从而使Agent能够更好地适应不同的任务和环境。

技术框架：Mem-$π$框架包含两个主要组成部分：一个是下游Agent，负责执行具体的任务；另一个是记忆生成模型，负责根据当前Agent的上下文生成指导信息。记忆生成模型接收Agent的当前状态作为输入，输出一个决策信号和一个指导信息。决策信号决定是否生成指导，指导信息则包含具体的指导内容。下游Agent接收记忆生成模型的输出，并将其作为输入的一部分，从而更好地完成任务。

关键创新：Mem-$π$的关键创新在于其自适应的记忆生成机制。与传统的基于检索的记忆方法不同，Mem-$π$能够根据当前上下文动态地生成指导信息，从而更好地适应不同的任务和环境。此外，Mem-$π$使用决策-内容解耦的强化学习目标，使得模型能够更好地学习何时生成指导以及生成何种指导。

关键设计：Mem-$π$的关键设计包括：1) 使用独立的语言或视觉-语言模型作为记忆生成模型；2) 使用决策-内容解耦的强化学习目标，该目标包含两个部分：一个是决策奖励，用于鼓励模型在需要时生成指导，并在不需要时选择放弃；另一个是内容奖励，用于鼓励模型生成有用的指导信息；3) 将记忆生成模型的输出作为下游Agent的输入，从而使Agent能够更好地利用记忆。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Mem-$π$在Web导航、基于终端的工具使用和基于文本的具身交互等多个Agent基准测试中均优于现有的基于检索和RL优化的记忆基线。特别是在Web导航任务中，Mem-$π$实现了超过30%的相对改进，证明了其自适应记忆生成机制的有效性。

🎯 应用场景

Mem-$π$具有广泛的应用前景，可以应用于各种需要Agent进行复杂决策的任务中，例如Web导航、机器人控制、游戏AI等。通过自适应地生成指导信息，Mem-$π$可以显著提高Agent的性能和效率，使其能够更好地适应不同的任务和环境。未来，Mem-$π$还可以与其他技术相结合，例如知识图谱、自然语言处理等，从而进一步提升Agent的智能水平。

📄 摘要（原文）

We present Mem-$π$, a framework for adaptive memory in large language model (LLM) agents, where useful guidance is generated on demand rather than retrieved from external memory stores. Existing memory-augmented agents typically rely on similarity-based retrieval from episodic memory banks or skill libraries, returning static entries that often misalign with the current context. In contrast, Mem-$π$ uses a dedicated language or vision-language model with its own parameters, separate from the downstream agent, to generate context-specific guidance for complex tasks. Conditioned on the current agent context, the model jointly decides when to produce guidance and what guidance to produce. We train it with a decision-content decoupled reinforcement learning (RL) objective, enabling it to abstain when generation would not help and otherwise produce concise, useful guidance. Across diverse agentic benchmarks spanning web navigation, terminal-based tool use, and text-based embodied interaction, Mem-$π$ consistently outperforms retrieval-based and prior RL-optimized memory baselines, achieving over 30% relative improvement on web navigation tasks.

Mem-$π$: Adaptive Memory through Learning When and What to Generate

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理