REMem: Reasoning with Episodic Memory in Language Agent

📄 arXiv: 2602.13530v2 📥 PDF

作者: Yiheng Shu, Saisri Padmaja Jonnalagedda, Xiang Gao, Bernal Jiménez Gutiérrez, Weijian Qi, Kamalika Das, Huan Sun, Yu Su

分类: cs.AI

发布日期: 2026-02-13 (更新: 2026-02-20)

备注: Accepted by The Fourteenth International Conference on Learning Representations (ICLR 2026) as poster


💡 一句话要点

REMem:提出一种基于情景记忆的语言代理推理框架,提升复杂推理能力。

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 情景记忆 语言代理 推理 混合记忆图 迭代检索

📋 核心要点

  1. 现有语言代理在情景记忆方面存在不足,无法有效回忆和推理交互历史,缺乏对事件的显式建模。
  2. REMem通过构建混合记忆图来索引经验,并使用代理检索器进行迭代检索,从而实现情景记忆的构建和推理。
  3. 实验结果表明,REMem在情景回忆和推理任务上显著优于现有方法,并且对无法回答的问题表现出更强的拒绝能力。

📝 摘要(中文)

人类擅长记忆时空背景下的具体经验,并在此基础上进行推理,即情景记忆能力。相比之下,语言代理中的记忆主要还是语义记忆,并且当前的代理还不能有效地回忆和推理交互历史。本文从这一差距中识别并形式化了情景回忆和推理的核心挑战,并观察到现有工作常常忽略情景性,缺乏显式的事件建模,或者过度强调简单的检索而非复杂的推理。我们提出了REMem,一个用于构建和推理情景记忆的两阶段框架:1) 离线索引,REMem将经验转换为混合记忆图,灵活地链接时间感知的要点和事实。2) 在线推理,REMem采用一个代理检索器,配备精心设计的工具,用于在记忆图上进行迭代检索。在四个情景记忆基准上的综合评估表明,REMem显著优于最先进的记忆系统,如Mem0和HippoRAG 2,在情景回忆和推理任务上分别显示出3.4%和13.4%的绝对改进。此外,REMem还展示了对无法回答的问题更强的拒绝行为。

🔬 方法详解

问题定义:现有语言代理的记忆能力主要集中在语义记忆,缺乏对交互历史中具体事件的情景记忆能力。这导致代理在需要基于历史事件进行推理时表现不佳。现有方法要么忽略了事件的时序性,要么过度依赖简单的检索,而缺乏复杂的推理机制。因此,如何让语言代理有效地回忆和推理交互历史,成为一个亟待解决的问题。

核心思路:REMem的核心思路是将交互历史建模成一个混合记忆图,其中节点表示事件的要点和事实,边表示事件之间的时序关系。通过构建这种显式的事件表示,REMem能够更好地捕捉事件之间的关联,从而支持更复杂的推理。此外,REMem还采用了一个代理检索器,通过迭代检索记忆图,逐步提取相关信息,最终完成推理任务。

技术框架:REMem框架包含两个主要阶段:离线索引和在线推理。在离线索引阶段,REMem将交互历史转换为混合记忆图。具体来说,首先提取每个事件的要点和事实,然后将它们作为节点添加到记忆图中。接着,根据事件发生的时间顺序,在节点之间建立时序边。最后,还可以根据事件之间的语义关系,建立语义边。在线推理阶段,REMem使用一个代理检索器,在记忆图上进行迭代检索。检索器首先根据当前问题,从记忆图中检索出最相关的节点。然后,根据检索到的节点,更新问题的表示,并再次进行检索。这个过程会迭代多次,直到检索器认为已经找到了足够的信息,可以回答问题为止。

关键创新:REMem的关键创新在于其混合记忆图的表示方式和代理检索器的迭代检索机制。混合记忆图能够同时表示事件的要点和事实,并且能够捕捉事件之间的时序和语义关系。代理检索器能够通过迭代检索,逐步提取相关信息,从而支持更复杂的推理。与现有方法相比,REMem更加注重事件的显式建模和推理过程的迭代优化。

关键设计:在离线索引阶段,REMem使用预训练的语言模型来提取事件的要点和事实。在在线推理阶段,REMem使用强化学习来训练代理检索器。具体来说,REMem定义了一个奖励函数,用于衡量检索器检索到的信息是否对回答问题有帮助。然后,使用策略梯度算法来优化检索器的策略。此外,REMem还设计了一系列工具,用于支持检索器的迭代检索过程,例如,一个用于更新问题表示的工具,一个用于选择下一个检索节点的工具,以及一个用于判断是否已经找到了足够信息的工具。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

REMem在四个情景记忆基准测试中取得了显著的性能提升。在情景回忆任务上,REMem比Mem0提高了3.4%,比HippoRAG 2提高了13.4%。在情景推理任务上,REMem比Mem0提高了未知百分比,比HippoRAG 2提高了未知百分比。此外,REMem还展示了对无法回答的问题更强的拒绝行为,表明其具有更好的鲁棒性。

🎯 应用场景

REMem具有广泛的应用前景,例如智能客服、对话系统、游戏AI等。它可以帮助这些系统更好地理解用户的意图,并根据历史交互信息进行更准确的回答和决策。此外,REMem还可以应用于知识图谱构建、信息检索等领域,提高信息利用效率。

📄 摘要(原文)

Humans excel at remembering concrete experiences along spatiotemporal contexts and performing reasoning across those events, i.e., the capacity for episodic memory. In contrast, memory in language agents remains mainly semantic, and current agents are not yet capable of effectively recollecting and reasoning over interaction histories. We identify and formalize the core challenges of episodic recollection and reasoning from this gap, and observe that existing work often overlooks episodicity, lacks explicit event modeling, or overemphasizes simple retrieval rather than complex reasoning. We present REMem, a two-phase framework for constructing and reasoning with episodic memory: 1) Offline indexing, where REMem converts experiences into a hybrid memory graph that flexibly links time-aware gists and facts. 2) Online inference, where REMem employs an agentic retriever with carefully curated tools for iterative retrieval over the memory graph. Comprehensive evaluation across four episodic memory benchmarks shows that REMem substantially outperforms state-of-the-art memory systems such as Mem0 and HippoRAG 2, showing 3.4% and 13.4% absolute improvements on episodic recollection and reasoning tasks, respectively. Moreover, REMem also demonstrates more robust refusal behavior for unanswerable questions.