Auto-Dreamer: Learning Offline Memory Consolidation for Language Agents

作者: Chongrui Ye, Yuxiang Liu, Yu Wang, Haofei Yu, Yining Zhao, Ge Liu, Julian McAuley, Jiaxuan You

分类: cs.CL

发布日期: 2026-05-20

备注: Preprint

💡 一句话要点

Auto-Dreamer：学习离线记忆整合，提升语言智能体的跨任务知识复用能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 语言智能体 记忆整合 离线学习 知识复用 互补学习系统

📋 核心要点

现有语言智能体记忆系统难以有效整合跨会话经验，阻碍了知识的复用和泛化能力。
Auto-Dreamer通过学习离线记忆整合，解耦快速在线记忆获取和缓慢跨会话知识提炼，提升记忆效率。
实验表明，Auto-Dreamer在多个任务上超越现有方法，显著减少内存占用，并具备良好的泛化能力。

📝 摘要（中文）

语言智能体越来越多地处理相关的任务流，但现有的记忆系统难以将积累的经验转化为可重用的知识。检索增强和结构化记忆方法有效地记录了每个会话的观察结果，但通常将获取和整合耦合到一个在线过程中，使智能体无法获得跨会话的全局视图，从而无法发现重复模式、抽象共享过程或修剪冗余条目。受互补学习系统理论的启发，我们提出了Auto-Dreamer，一种用于语言智能体记忆的学习型离线整合器。Auto-Dreamer将快速的会话内记忆获取与缓慢的跨会话整合分离。给定类型化记忆库的选定工作区域，整合器将该区域视为只读证据，执行有界的工具使用来检查条目和来源链接的源轨迹，并合成一个新的紧凑替换集，该替换集跨会话进行抽象并取代原始区域。我们通过GRPO训练Auto-Dreamer，使用端到端智能体性能作为奖励信号，以学习如何整合通过快速在线经验获得的记忆。仅在ScienceWorld轨迹上训练，Auto-Dreamer在ScienceWorld上的表现优于固定的、RL训练的和提示的记忆基线7个点，同时使用的活动记忆库比最强的基线小12倍，并且在未保留的ALFWorld和WebArena上继续领先，无需重新训练——在ALFWorld上使用的内存比最强的基线少6倍。

🔬 方法详解

问题定义：现有语言智能体的记忆系统通常将记忆的获取和整合耦合在一起，导致无法有效地利用跨会话的经验来发现重复模式、抽象共享过程或删除冗余信息。这限制了智能体在处理一系列相关任务时的性能和泛化能力。

核心思路：Auto-Dreamer的核心思路是借鉴互补学习系统理论，将记忆的获取和整合过程解耦。快速的在线记忆获取负责记录每个会话的观察结果，而缓慢的离线记忆整合则负责对跨会话的记忆进行抽象、压缩和提炼，从而形成可重用的知识。

技术框架：Auto-Dreamer包含两个主要模块：快速在线记忆获取模块和学习型离线整合器。快速在线记忆获取模块负责记录每个会话的观察结果，并将其存储在类型化的记忆库中。学习型离线整合器则定期从记忆库中选择一个工作区域，并将其视为只读证据。整合器使用工具来检查条目和来源链接的源轨迹，并合成一个新的紧凑替换集，该替换集跨会话进行抽象并取代原始区域。

关键创新：Auto-Dreamer的关键创新在于学习型离线整合器。该整合器通过学习如何对跨会话的记忆进行抽象、压缩和提炼，从而形成可重用的知识。与现有的记忆系统相比，Auto-Dreamer能够更有效地利用跨会话的经验，并显著减少内存占用。

关键设计：Auto-Dreamer使用GRPO（Gradient-free Policy Optimization）来训练离线整合器。GRPO使用端到端智能体性能作为奖励信号，以学习如何整合通过快速在线经验获得的记忆。整合器使用有界的工具使用来检查条目和来源链接的源轨迹。具体的网络结构和参数设置在论文中未详细描述，属于未知信息。

🖼️ 关键图片

📊 实验亮点

Auto-Dreamer在ScienceWorld任务上超越了固定的、RL训练的和提示的记忆基线7个点，同时使用的活动记忆库比最强的基线小12倍。在未保留的ALFWorld和WebArena上，Auto-Dreamer也表现出良好的泛化能力，无需重新训练，且在ALFWorld上使用的内存比最强的基线少6倍。这些结果表明，Auto-Dreamer能够有效地整合和提炼经验，并显著减少内存占用。

🎯 应用场景

Auto-Dreamer可应用于各种需要长期记忆和知识复用的语言智能体场景，例如：持续学习机器人、对话系统、任务型智能体等。通过有效整合和提炼经验，Auto-Dreamer能够提升智能体的泛化能力和效率，使其更好地适应复杂多变的环境。

📄 摘要（原文）

Language agents increasingly operate over streams of related tasks, yet existing memory systems struggle to convert accumulated experience into reusable knowledge. Retrieval-augmented and structured memory methods record per-session observations effectively, but often couple acquisition and consolidation into a single online process, leaving the agent without a global view across sessions to discover recurring patterns, abstract shared procedures, or prune redundant entries. Inspired by complementary learning systems theory, we propose Auto-Dreamer, a learned offline consolidator for language-agent memory. Auto-Dreamer decouples fast per-session memory acquisition from slow cross-session consolidation. Given a selected working region of a typed memory bank, the consolidator treats the region as read-only evidence, performs bounded tool-use to inspect entries and provenance-linked source trajectories, and synthesizes a fresh compact replacement set that abstracts across sessions and supersedes the original region. We train Auto-Dreamer via GRPO, using end-to-end agent performance as the reward signal to learn how to consolidate memories acquired through fast online experience. Trained on ScienceWorld trajectories alone, Auto-Dreamer outperforms fixed, RL-trained, and prompted memory baselines on ScienceWorld by 7 points while using an active memory bank 12$\times$ smaller than the strongest baseline, and continues to lead on held-out ALFWorld and WebArena without retraining -- using 6$\times$ less memory than the strongest baseline on ALFWorld.

Auto-Dreamer: Learning Offline Memory Consolidation for Language Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理