Auto-Dreamer: Learning Offline Memory Consolidation for Language Agents

📄 arXiv: 2605.20616v1 📥 PDF

作者: Chongrui Ye, Yuxiang Liu, Yu Wang, Haofei Yu, Yining Zhao, Ge Liu, Julian McAuley, Jiaxuan You

分类: cs.CL

发布日期: 2026-05-20

备注: Preprint


💡 一句话要点

Auto-Dreamer:学习离线记忆整合,提升语言智能体的跨任务知识复用能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 语言智能体 记忆整合 离线学习 知识复用 互补学习系统

📋 核心要点

  1. 现有语言智能体记忆系统难以有效整合跨会话经验,阻碍了知识的复用和泛化能力。
  2. Auto-Dreamer通过学习离线记忆整合,解耦快速在线记忆获取和缓慢跨会话知识提炼,提升记忆效率。
  3. 实验表明,Auto-Dreamer在多个任务上超越现有方法,显著减少内存占用,并具备良好的泛化能力。

📝 摘要(中文)

语言智能体越来越多地处理相关的任务流,但现有的记忆系统难以将积累的经验转化为可重用的知识。检索增强和结构化记忆方法有效地记录了每个会话的观察结果,但通常将获取和整合耦合到一个在线过程中,使智能体无法获得跨会话的全局视图,从而无法发现重复模式、抽象共享过程或修剪冗余条目。受互补学习系统理论的启发,我们提出了Auto-Dreamer,一种用于语言智能体记忆的学习型离线整合器。Auto-Dreamer将快速的会话内记忆获取与缓慢的跨会话整合分离。给定类型化记忆库的选定工作区域,整合器将该区域视为只读证据,执行有界的工具使用来检查条目和来源链接的源轨迹,并合成一个新的紧凑替换集,该替换集跨会话进行抽象并取代原始区域。我们通过GRPO训练Auto-Dreamer,使用端到端智能体性能作为奖励信号,以学习如何整合通过快速在线经验获得的记忆。仅在ScienceWorld轨迹上训练,Auto-Dreamer在ScienceWorld上的表现优于固定的、RL训练的和提示的记忆基线7个点,同时使用的活动记忆库比最强的基线小12倍,并且在未保留的ALFWorld和WebArena上继续领先,无需重新训练——在ALFWorld上使用的内存比最强的基线少6倍。

🔬 方法详解

问题定义:现有语言智能体的记忆系统通常将记忆的获取和整合耦合在一起,导致无法有效地利用跨会话的经验来发现重复模式、抽象共享过程或删除冗余信息。这限制了智能体在处理一系列相关任务时的性能和泛化能力。

核心思路:Auto-Dreamer的核心思路是借鉴互补学习系统理论,将记忆的获取和整合过程解耦。快速的在线记忆获取负责记录每个会话的观察结果,而缓慢的离线记忆整合则负责对跨会话的记忆进行抽象、压缩和提炼,从而形成可重用的知识。

技术框架:Auto-Dreamer包含两个主要模块:快速在线记忆获取模块和学习型离线整合器。快速在线记忆获取模块负责记录每个会话的观察结果,并将其存储在类型化的记忆库中。学习型离线整合器则定期从记忆库中选择一个工作区域,并将其视为只读证据。整合器使用工具来检查条目和来源链接的源轨迹,并合成一个新的紧凑替换集,该替换集跨会话进行抽象并取代原始区域。

关键创新:Auto-Dreamer的关键创新在于学习型离线整合器。该整合器通过学习如何对跨会话的记忆进行抽象、压缩和提炼,从而形成可重用的知识。与现有的记忆系统相比,Auto-Dreamer能够更有效地利用跨会话的经验,并显著减少内存占用。

关键设计:Auto-Dreamer使用GRPO(Gradient-free Policy Optimization)来训练离线整合器。GRPO使用端到端智能体性能作为奖励信号,以学习如何整合通过快速在线经验获得的记忆。整合器使用有界的工具使用来检查条目和来源链接的源轨迹。具体的网络结构和参数设置在论文中未详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Auto-Dreamer在ScienceWorld任务上超越了固定的、RL训练的和提示的记忆基线7个点,同时使用的活动记忆库比最强的基线小12倍。在未保留的ALFWorld和WebArena上,Auto-Dreamer也表现出良好的泛化能力,无需重新训练,且在ALFWorld上使用的内存比最强的基线少6倍。这些结果表明,Auto-Dreamer能够有效地整合和提炼经验,并显著减少内存占用。

🎯 应用场景

Auto-Dreamer可应用于各种需要长期记忆和知识复用的语言智能体场景,例如:持续学习机器人、对话系统、任务型智能体等。通过有效整合和提炼经验,Auto-Dreamer能够提升智能体的泛化能力和效率,使其更好地适应复杂多变的环境。

📄 摘要(原文)

Language agents increasingly operate over streams of related tasks, yet existing memory systems struggle to convert accumulated experience into reusable knowledge. Retrieval-augmented and structured memory methods record per-session observations effectively, but often couple acquisition and consolidation into a single online process, leaving the agent without a global view across sessions to discover recurring patterns, abstract shared procedures, or prune redundant entries. Inspired by complementary learning systems theory, we propose Auto-Dreamer, a learned offline consolidator for language-agent memory. Auto-Dreamer decouples fast per-session memory acquisition from slow cross-session consolidation. Given a selected working region of a typed memory bank, the consolidator treats the region as read-only evidence, performs bounded tool-use to inspect entries and provenance-linked source trajectories, and synthesizes a fresh compact replacement set that abstracts across sessions and supersedes the original region. We train Auto-Dreamer via GRPO, using end-to-end agent performance as the reward signal to learn how to consolidate memories acquired through fast online experience. Trained on ScienceWorld trajectories alone, Auto-Dreamer outperforms fixed, RL-trained, and prompted memory baselines on ScienceWorld by 7 points while using an active memory bank 12$\times$ smaller than the strongest baseline, and continues to lead on held-out ALFWorld and WebArena without retraining -- using 6$\times$ less memory than the strongest baseline on ALFWorld.