MemRL: Self-Evolving Agents via Runtime Reinforcement Learning on Episodic Memory

📄 arXiv: 2601.03192v1 📥 PDF

作者: Shengtao Zhang, Jiaqian Wang, Ruiwen Zhou, Junwei Liao, Yuchen Feng, Weinan Zhang, Ying Wen, Zhiyu Li, Feiyu Xiong, Yutao Qi, Bo Tang, Muning Wen

分类: cs.CL

发布日期: 2026-01-06

备注: 23 pages, 11 figures


💡 一句话要点

MemRL:通过情景记忆上的运行时强化学习实现智能体自进化

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 情景记忆 强化学习 大型语言模型 自进化智能体 运行时学习

📋 核心要点

  1. 现有方法难以让LLM在运行时持续学习新技能,微调成本高,基于记忆的方法易受噪声干扰。
  2. MemRL通过情景记忆上的非参数强化学习,分离LLM的稳定推理和可塑性记忆,实现智能体的自进化。
  3. 实验表明,MemRL在多个基准测试中显著优于现有方法,有效解决了稳定性和可塑性之间的矛盾。

📝 摘要(中文)

人类智能的标志是通过建设性的情景模拟来掌握新技能——检索过去的经验来综合解决新任务。虽然大型语言模型(LLM)具有强大的推理能力,但它们难以模仿这种自进化:微调计算成本高昂且容易发生灾难性遗忘,而现有的基于记忆的方法依赖于被动的语义匹配,经常检索到噪声。为了解决这些挑战,我们提出了MemRL,一个使智能体能够通过情景记忆上的非参数强化学习进行自进化的框架。MemRL明确地将冻结LLM的稳定推理与可塑的、不断进化的记忆分开。与传统方法不同,MemRL采用两阶段检索机制,首先通过语义相关性过滤候选者,然后根据学习到的Q值(效用)选择它们。这些效用通过环境反馈以试错的方式不断改进,使智能体能够区分高价值策略和类似的噪声。在HLE、BigCodeBench、ALFWorld和Lifelong Agent Bench上的大量实验表明,MemRL显著优于最先进的基线。我们的分析实验证实,MemRL有效地解决了稳定性和可塑性困境,从而能够在不更新权重的情况下实现持续的运行时改进。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)在面对新任务时,主要存在两个问题。一是微调LLM以适应新任务的计算成本非常高昂,并且容易导致灾难性遗忘,即忘记之前学习过的知识。二是现有的基于记忆的方法,例如通过语义匹配来检索相关经验,容易受到噪声的干扰,检索到不相关的或低质量的信息,从而影响性能。因此,如何让LLM在运行时持续学习新技能,同时避免灾难性遗忘和噪声干扰,是一个重要的挑战。

核心思路:MemRL的核心思路是将LLM的稳定推理能力与可塑性的记忆模块分离。LLM负责提供稳定的推理能力,而记忆模块则负责存储和检索经验。通过在情景记忆上进行非参数强化学习,MemRL能够学习到每个记忆片段的效用(Q值),从而在检索时选择更有价值的经验,并过滤掉噪声。这种分离的设计使得MemRL能够在不更新LLM权重的情况下,实现持续的运行时改进。

技术框架:MemRL的整体框架包含以下几个主要模块:1)LLM:负责提供稳定的推理能力,例如生成候选动作或策略。2)情景记忆:存储智能体过去的经验,包括状态、动作、奖励等信息。3)两阶段检索:首先通过语义相关性过滤候选记忆片段,然后根据学习到的Q值选择最终的记忆片段。4)强化学习模块:根据环境反馈,不断更新记忆片段的Q值,从而提高检索的准确性和效率。整个流程是,智能体首先使用LLM生成候选动作,然后通过两阶段检索从情景记忆中选择相关的经验,并根据选择的经验执行动作,最后根据环境反馈更新记忆片段的Q值。

关键创新:MemRL最重要的技术创新点是其两阶段检索机制和基于强化学习的记忆效用学习。传统的基于记忆的方法通常只使用语义匹配来检索经验,容易受到噪声的干扰。而MemRL首先通过语义相关性进行粗略的过滤,然后使用学习到的Q值进行精细的选择,从而能够更准确地检索到有价值的经验。此外,通过强化学习不断更新记忆片段的Q值,使得MemRL能够自适应地学习到每个记忆片段的真实效用,从而提高检索的效率和准确性。

关键设计:MemRL的关键设计包括:1)两阶段检索的实现细节,例如语义相关性的计算方法和Q值的更新策略。2)强化学习算法的选择,例如可以使用Q-learning或SARSA等算法。3)情景记忆的存储结构,例如可以使用哈希表或树结构来提高检索效率。4)奖励函数的设计,例如可以使用环境提供的奖励或自定义的奖励函数来指导强化学习过程。具体的参数设置和网络结构等技术细节在论文中应该有更详细的描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MemRL在HLE、BigCodeBench、ALFWorld和Lifelong Agent Bench等多个基准测试中显著优于最先进的基线。具体性能数据和提升幅度在论文中应该有详细的报告(未知)。分析实验表明,MemRL有效地解决了稳定性和可塑性之间的矛盾,能够在不更新权重的情况下实现持续的运行时改进。这些实验结果充分证明了MemRL的有效性和优越性。

🎯 应用场景

MemRL具有广泛的应用前景,例如可以应用于机器人控制、游戏AI、自然语言处理等领域。它可以使智能体在复杂和动态的环境中持续学习和适应,从而提高其性能和鲁棒性。此外,MemRL还可以用于构建终身学习的智能体,使其能够不断积累知识和经验,并将其应用于新的任务中。该研究对于推动通用人工智能的发展具有重要的意义。

📄 摘要(原文)

The hallmark of human intelligence is the ability to master new skills through Constructive Episodic Simulation-retrieving past experiences to synthesize solutions for novel tasks. While Large Language Models possess strong reasoning capabilities, they struggle to emulate this self-evolution: fine-tuning is computationally expensive and prone to catastrophic forgetting, while existing memory-based methods rely on passive semantic matching that often retrieves noise. To address these challenges, we propose MemRL, a framework that enables agents to self-evolve via non-parametric reinforcement learning on episodic memory. MemRL explicitly separates the stable reasoning of a frozen LLM from the plastic, evolving memory. Unlike traditional methods, MemRL employs a Two-Phase Retrieval mechanism that filters candidates by semantic relevance and then selects them based on learned Q-values (utility). These utilities are continuously refined via environmental feedback in an trial-and-error manner, allowing the agent to distinguish high-value strategies from similar noise. Extensive experiments on HLE, BigCodeBench, ALFWorld, and Lifelong Agent Bench demonstrate that MemRL significantly outperforms state-of-the-art baselines. Our analysis experiments confirm that MemRL effectively reconciles the stability-plasticity dilemma, enabling continuous runtime improvement without weight updates.