Complementary Reinforcement Learning

📄 arXiv: 2603.17621v1 📥 PDF

作者: Dilxat Muhtar, Jiashun Liu, Wei Gao, Weixun Wang, Shaopan Xiong, Ju Huang, Siran Yang, Wenbo Su, Jiamang Wang, Ling Pan, Bo Zheng

分类: cs.LG, cs.CL

发布日期: 2026-03-18

备注: 22 pages, 14 figures


💡 一句话要点

提出互补强化学习,解决Agent在稀疏奖励下经验利用不足的问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 经验回放 互补学习系统 Agent学习 稀疏奖励

📋 核心要点

  1. 现有强化学习Agent在稀疏奖励下,难以有效利用历史经验,导致样本效率低下。
  2. 互补强化学习通过共同进化经验提取器和策略Actor,使经验管理与Actor能力同步提升。
  3. 实验表明,互补强化学习在单任务和多任务场景中均优于传统方法,提升了Agent性能。

📝 摘要(中文)

强化学习(RL)已成为训练基于LLM的Agent的强大范例,但仍然受到样本效率低的限制,这不仅源于稀疏的结果反馈,还源于Agent无法利用跨episode的先前经验。虽然使用历史经验增强Agent提供了一种有希望的补救措施,但现有方法存在一个关键弱点:从历史中提取的经验要么静态存储,要么无法与不断改进的Actor共同进化,导致经验与Actor不断发展的能力之间逐渐失调,从而降低了其在训练过程中的效用。受到神经科学中互补学习系统的启发,我们提出了互补强化学习,以实现经验提取器和策略Actor在RL优化循环中的无缝共同进化。具体而言,Actor通过基于稀疏结果的奖励进行优化,而经验提取器则根据其提取的经验是否明显有助于Actor的成功进行优化,从而使其经验管理策略与Actor不断增长的能力同步发展。在实验上,互补强化学习优于不从经验中学习的基于结果的Agentic RL基线,在单任务场景中实现了10%的性能提升,并在多任务设置中表现出强大的可扩展性。这些结果确立了互补强化学习作为高效的经验驱动Agent学习的范例。

🔬 方法详解

问题定义:论文旨在解决强化学习Agent在稀疏奖励环境下,难以有效利用历史经验,导致样本效率低下的问题。现有方法要么静态存储经验,要么无法使经验与Agent的能力同步进化,导致经验利用率随训练进行而降低。

核心思路:论文的核心思路是借鉴神经科学中的互补学习系统,提出一种互补强化学习框架,使经验提取器和策略Actor在强化学习优化循环中共同进化。通过让经验提取器根据其提取的经验对Actor成功的影响进行优化,从而保证经验提取器能够持续提取对Actor有用的经验。

技术框架:互补强化学习框架包含两个主要模块:策略Actor和经验提取器。策略Actor通过稀疏奖励进行优化,负责执行动作并与环境交互。经验提取器负责从历史经验中提取有用的信息,并将其提供给策略Actor。这两个模块在强化学习优化循环中共同进化,互相促进。

关键创新:论文最重要的技术创新点在于经验提取器和策略Actor的共同进化机制。传统方法通常将经验提取视为一个独立的任务,而互补强化学习则将经验提取与策略学习紧密结合,使经验提取器能够根据策略Actor的需求进行优化,从而提高经验的利用率。

关键设计:论文的关键设计包括:1) 使用奖励信号来指导经验提取器的优化,确保提取的经验对Actor的成功有贡献;2) 设计合适的网络结构,使经验提取器能够有效地从历史经验中提取信息;3) 设计合适的损失函数,使经验提取器和策略Actor能够协同优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,互补强化学习在单任务场景中实现了10%的性能提升,并在多任务设置中表现出强大的可扩展性。与不从经验中学习的基线方法相比,互补强化学习能够更有效地利用历史经验,从而提高Agent的性能和样本效率。这些结果验证了互补强化学习作为高效的经验驱动Agent学习范例的有效性。

🎯 应用场景

该研究成果可应用于各种需要智能Agent与环境交互的领域,例如机器人控制、游戏AI、自动驾驶等。通过提高Agent的样本效率,可以降低训练成本,加速Agent的部署。此外,该方法还可以应用于多任务学习,使Agent能够同时学习多个任务,提高其通用性和适应性。

📄 摘要(原文)

Reinforcement Learning (RL) has emerged as a powerful paradigm for training LLM-based agents, yet remains limited by low sample efficiency, stemming not only from sparse outcome feedback but also from the agent's inability to leverage prior experience across episodes. While augmenting agents with historical experience offers a promising remedy, existing approaches suffer from a critical weakness: the experience distilled from history is either stored statically or fail to coevolve with the improving actor, causing a progressive misalignment between the experience and the actor's evolving capability that diminishes its utility over the course of training. Inspired by complementary learning systems in neuroscience, we present Complementary RL to achieve seamless co-evolution of an experience extractor and a policy actor within the RL optimization loop. Specifically, the actor is optimized via sparse outcome-based rewards, while the experience extractor is optimized according to whether its distilled experiences demonstrably contribute to the actor's success, thereby evolving its experience management strategy in lockstep with the actor's growing capabilities. Empirically, Complementary RL outperforms outcome-based agentic RL baselines that do not learn from experience, achieving 10% performance improvement in single-task scenarios and exhibits robust scalability in multi-task settings. These results establish Complementary RL as a paradigm for efficient experience-driven agent learning.