Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

📄 arXiv: 2602.23008 📥 PDF

作者: Zeyuan Liu, Jeonghye Kim, Xufang Luo, Dongsheng Li, Yuqing Yang

分类: cs.LG, cs.AI

发布日期: 2026-02-28


💡 一句话要点

提出EMPO$^2$,结合记忆与混合策略优化,提升LLM Agent探索能力与泛化性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 强化学习 探索 记忆增强 On-Policy Off-Policy 泛化性 混合策略优化

📋 核心要点

  1. 现有方法难以在需要发现新状态的环境中有效探索,是LLM Agent强化学习训练的关键瓶颈。
  2. EMPO$^2$利用记忆增强探索能力,并结合On-Policy和Off-Policy更新,提升Agent的鲁棒性和泛化性。
  3. 在ScienceWorld和WebShop等任务上,EMPO$^2$显著优于现有方法,并在分布外测试中表现出良好的适应性。

📝 摘要(中文)

本文针对强化学习训练的大型语言模型Agent在探索方面的瓶颈问题,提出了一种名为探索性记忆增强的On-和Off-Policy优化(EMPO$^2$)的混合强化学习框架。该框架利用记忆进行探索,并结合On-和Off-Policy更新,使LLM在利用记忆的同时,也能保证在没有记忆的情况下依然具有鲁棒性。在ScienceWorld和WebShop两个环境中的实验结果表明,EMPO$^2$分别比GRPO提升了128.6%和11.3%。此外,在分布外测试中,EMPO$^2$展示了对新任务的卓越适应性,仅需少量带记忆的试验,无需参数更新。这些结果表明,EMPO$^2$是一个有前景的框架,可用于构建更具探索性和泛化能力的基于LLM的Agent。

🔬 方法详解

问题定义:论文旨在解决大型语言模型Agent在强化学习训练中探索能力不足的问题。现有方法主要依赖预训练知识,但在需要发现新状态的环境中表现不佳,无法有效探索未知区域。这限制了Agent在复杂环境中的应用。

核心思路:论文的核心思路是利用外部记忆模块来增强Agent的探索能力,并结合On-Policy和Off-Policy两种更新方式,以平衡探索效率和稳定性。通过记忆模块,Agent可以存储和检索历史经验,从而更好地理解环境并发现新的状态。同时,混合策略优化保证了Agent在有无记忆的情况下都能有效学习。

技术框架:EMPO$^2$框架包含以下主要模块:1) LLM Agent,负责生成动作;2) 记忆模块,用于存储和检索Agent的历史经验;3) On-Policy更新模块,使用当前策略生成的数据进行更新;4) Off-Policy更新模块,使用历史数据进行更新。Agent与环境交互,并将经验存储在记忆模块中。然后,On-Policy和Off-Policy更新模块利用这些经验来更新LLM Agent的策略。

关键创新:EMPO$^2$的关键创新在于混合使用了On-Policy和Off-Policy更新,并结合了记忆模块。传统的On-Policy方法虽然稳定,但探索效率较低;Off-Policy方法虽然可以利用历史数据,但容易出现偏差。EMPO$^2$通过结合两者的优点,实现了更高效和稳定的探索。此外,记忆模块的引入使得Agent能够更好地理解环境并发现新的状态,从而提升了探索能力。

关键设计:论文中记忆模块的具体实现方式未知,但可以推测其可能采用某种形式的向量数据库或键值对存储。On-Policy更新可能使用PPO或TRPO等算法,而Off-Policy更新可能使用DQN或SAC等算法。具体的损失函数和网络结构等技术细节在论文中没有详细描述,需要进一步研究。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EMPO$^2$在ScienceWorld和WebShop两个环境中的实验结果显著。在ScienceWorld中,EMPO$^2$比GRPO提升了128.6%,在WebShop中提升了11.3%。更重要的是,在分布外测试中,EMPO$^2$展示了对新任务的卓越适应性,仅需少量带记忆的试验,无需参数更新,这表明其具有很强的泛化能力。

🎯 应用场景

EMPO$^2$框架具有广泛的应用前景,可用于开发各种需要智能探索的LLM Agent,例如:游戏AI、机器人导航、自动化科学发现、智能对话系统等。该研究有助于提升Agent在复杂环境中的适应性和泛化能力,使其能够更好地解决实际问题,具有重要的实际应用价值和未来发展潜力。

📄 摘要(原文)

Exploration remains the key bottleneck for large language model agents trained with reinforcement learning. While prior methods exploit pretrained knowledge, they fail in environments requiring the discovery of novel states. We propose Exploratory Memory-Augmented On- and Off-Policy Optimization (EMPO$^2$), a hybrid RL framework that leverages memory for exploration and combines on- and off-policy updates to make LLMs perform well with memory while also ensuring robustness without it. On ScienceWorld and WebShop, EMPO$^2$ achieves 128.6% and 11.3% improvements over GRPO, respectively. Moreover, in out-of-distribution tests, EMPO$^2$ demonstrates superior adaptability to new tasks, requiring only a few trials with memory and no parameter updates. These results highlight EMPO$^2$ as a promising framework for building more exploratory and generalizable LLM-based agents.