Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

📄 arXiv: 2602.23008v1 📥 PDF

作者: Zeyuan Liu, Jeonghye Kim, Xufang Luo, Dongsheng Li, Yuqing Yang

分类: cs.LG, cs.AI

发布日期: 2026-02-26

备注: Accepted to ICLR 2026


💡 一句话要点

提出EMPO$^2$,通过混合策略优化和记忆增强提升LLM Agent的探索能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 强化学习 探索 记忆增强 On-Policy Off-Policy Agent 泛化能力

📋 核心要点

  1. 现有基于强化学习训练的LLM Agent在探索新状态方面存在瓶颈,难以适应需要发现新状态的环境。
  2. EMPO$^2$框架通过引入记忆机制辅助探索,并结合On-Policy和Off-Policy更新,提升Agent的探索能力和泛化性。
  3. 实验结果表明,EMPO$^2$在ScienceWorld和WebShop等任务上显著优于现有方法,并展现出良好的分布外适应性。

📝 摘要(中文)

本文提出了一种名为探索性记忆增强On-和Off-Policy优化(EMPO$^2$)的混合强化学习框架,旨在解决大型语言模型Agent在探索方面的瓶颈问题。现有方法主要依赖预训练知识,但在需要发现新状态的环境中表现不佳。EMPO$^2$利用记忆进行探索,并结合On-和Off-Policy更新,使LLM在利用记忆的同时,也能保证不依赖记忆时的鲁棒性。在ScienceWorld和WebShop上的实验表明,EMPO$^2$分别比GRPO提高了128.6%和11.3%。此外,在分布外测试中,EMPO$^2$展现出对新任务的卓越适应性,仅需少量带记忆的试验,无需参数更新。这些结果表明EMPO$^2$是一个有前景的框架,可以构建更具探索性和泛化能力的基于LLM的Agent。

🔬 方法详解

问题定义:论文旨在解决大型语言模型Agent在强化学习训练中探索能力不足的问题。现有方法过度依赖预训练知识,无法有效探索未知的状态空间,导致在需要发现新状态的环境中表现不佳。现有方法的痛点在于缺乏有效的探索机制,难以适应复杂和动态的环境。

核心思路:论文的核心思路是利用记忆机制来增强Agent的探索能力,并结合On-Policy和Off-Policy两种更新方式,以平衡探索和利用,并提高Agent的鲁棒性。记忆机制允许Agent存储和检索过去的经验,从而更好地理解环境并发现新的状态。混合策略优化则保证了Agent在有记忆和没有记忆的情况下都能表现良好。

技术框架:EMPO$^2$框架包含以下主要模块:1) 记忆模块,用于存储和检索Agent的经验;2) On-Policy更新模块,用于根据当前策略收集的数据更新策略;3) Off-Policy更新模块,用于利用历史数据更新策略。Agent首先与环境交互,并将经验存储在记忆模块中。然后,Agent使用On-Policy和Off-Policy数据更新策略,从而提高探索能力和鲁棒性。

关键创新:EMPO$^2$的关键创新在于混合使用了On-Policy和Off-Policy更新,并结合了记忆机制。与传统的只使用On-Policy或Off-Policy的方法相比,EMPO$^2$能够更好地平衡探索和利用,并提高Agent的鲁棒性。记忆机制的引入使得Agent能够更好地理解环境并发现新的状态,从而提高探索效率。

关键设计:论文中,记忆模块的具体实现方式未知,但可以推测其可能采用某种形式的经验回放或外部知识库。On-Policy和Off-Policy更新的具体算法也未知,但可以推测其可能采用TRPO、PPO或DDPG等算法。损失函数的设计目标是最大化Agent的期望回报,同时鼓励探索和利用记忆。具体的参数设置和网络结构未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EMPO$^2$在ScienceWorld和WebShop两个任务上分别取得了显著的性能提升,相较于GRPO,分别提高了128.6%和11.3%。更重要的是,EMPO$^2$在分布外测试中表现出卓越的适应性,仅需少量带记忆的试验,无需参数更新,就能快速适应新的任务环境,证明了其良好的泛化能力。

🎯 应用场景

EMPO$^2$框架具有广泛的应用前景,可应用于各种需要智能体进行探索和决策的任务中,例如机器人导航、游戏AI、自动化客服等。该研究有助于提升智能体在复杂环境中的适应性和泛化能力,降低对人工干预的依赖,并最终实现更智能、更自主的AI系统。

📄 摘要(原文)

Exploration remains the key bottleneck for large language model agents trained with reinforcement learning. While prior methods exploit pretrained knowledge, they fail in environments requiring the discovery of novel states. We propose Exploratory Memory-Augmented On- and Off-Policy Optimization (EMPO$^2$), a hybrid RL framework that leverages memory for exploration and combines on- and off-policy updates to make LLMs perform well with memory while also ensuring robustness without it. On ScienceWorld and WebShop, EMPO$^2$ achieves 128.6% and 11.3% improvements over GRPO, respectively. Moreover, in out-of-distribution tests, EMPO$^2$ demonstrates superior adaptability to new tasks, requiring only a few trials with memory and no parameter updates. These results highlight EMPO$^2$ as a promising framework for building more exploratory and generalizable LLM-based agents.