Beyond Single-Model Optimization: Preserving Plasticity in Continual Reinforcement Learning

📄 arXiv: 2604.15414v1 📥 PDF

作者: Lute Lillo, Nick Cheney

分类: cs.LG, cs.AI, cs.NE

发布日期: 2026-04-16


💡 一句话要点

提出TeLAPA,通过维护技能对齐的策略邻域,提升持续强化学习中的可塑性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 持续强化学习 可塑性 策略邻域 迁移学习 质量多样性

📋 核心要点

  1. 现有持续强化学习方法依赖单模型保存,导致策略在干扰后可塑性丧失,难以快速适应新任务。
  2. TeLAPA框架通过维护技能对齐的策略邻域,利用行为多样的策略支持未来的再学习,提升可塑性。
  3. 实验表明,TeLAPA在MiniGrid CL环境中学习更多任务,干扰后更快恢复能力,并保持更高性能。

📝 摘要(中文)

持续强化学习需要在保持知识和适应新任务之间取得平衡,但许多方法仍然依赖于单模型保存,即将一个不断演进的策略作为跨任务的主要可重用解决方案。即使保留了先前成功的策略,它也可能不再为干扰后的快速适应提供可靠的起点,反映了单策略保存无法解决的一种可塑性丧失。受质量多样性方法的启发,我们引入了TeLAPA(Transfer-Enabled Latent-Aligned Policy Archives),这是一个持续强化学习框架,它将行为多样的策略邻域组织到每个任务的档案中,并维护一个共享的潜在空间,以便存档的策略在非平稳漂移下保持可比性和可重用性。这种视角将持续强化学习从保留孤立的解决方案转变为维护具有胜任且行为相关的策略的技能对齐邻域,从而支持未来的再学习。在我们的MiniGrid CL环境中,TeLAPA成功学习了更多任务,在干扰后更快地恢复了对重新访问任务的能力,并在任务序列中保持了更高的性能。我们的分析表明,即使在局部胜任邻域内,源最优策略通常也不是迁移最优的,并且有效的重用取决于保留和选择多个附近的替代方案,而不是将它们折叠为一个代表。总之,这些结果围绕可重用且胜任的策略邻域重新构建了持续强化学习,为超越单模型保存,迈向更具可塑性的终身智能体提供了一条途径。

🔬 方法详解

问题定义:持续强化学习需要在不断学习新任务的同时,保持对先前任务的知识。然而,现有方法通常依赖于单模型保存,即只保留一个不断演进的策略。这种方法的痛点在于,当环境发生变化或受到干扰时,先前学习的策略可能不再适用,导致智能体失去可塑性,难以快速适应新的情况。即使保留了之前的策略,它也可能不再是快速适应的良好起点。

核心思路:TeLAPA的核心思路是维护一个策略邻域,而不是单一策略。这个策略邻域包含多个行为多样的策略,每个策略都针对特定的任务或环境。通过维护这个策略邻域,智能体可以更好地适应环境的变化,并在需要时快速切换到合适的策略。这种方法借鉴了质量多样性算法的思想,旨在保留多种可能的解决方案,而不是只关注最优解。

技术框架:TeLAPA框架包含以下几个主要模块:1) 策略档案:为每个任务维护一个策略档案,其中包含多个行为多样的策略。2) 潜在空间:维护一个共享的潜在空间,用于对策略进行编码和比较。3) 策略选择:根据当前环境选择合适的策略。4) 策略更新:根据新的经验更新策略档案中的策略。整体流程是,当智能体遇到新的任务时,首先在潜在空间中找到与该任务相关的策略,然后根据当前环境选择合适的策略,并根据新的经验更新策略档案中的策略。

关键创新:TeLAPA最重要的技术创新在于它维护了一个策略邻域,而不是单一策略。这使得智能体可以更好地适应环境的变化,并在需要时快速切换到合适的策略。与现有方法的本质区别在于,现有方法通常只关注最优解,而TeLAPA则关注多种可能的解决方案。此外,TeLAPA还引入了一个共享的潜在空间,用于对策略进行编码和比较,这使得智能体可以更好地理解策略之间的关系。

关键设计:TeLAPA的关键设计包括:1) 策略档案的大小:策略档案的大小决定了智能体可以保留多少个策略。2) 潜在空间的维度:潜在空间的维度决定了智能体可以对策略进行多精细的编码。3) 策略选择的算法:策略选择的算法决定了智能体如何选择合适的策略。4) 策略更新的算法:策略更新的算法决定了智能体如何更新策略档案中的策略。论文中使用了MiniGrid环境,并采用了一种基于VAE的潜在空间学习方法。具体的损失函数和网络结构细节可以在论文中找到。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TeLAPA在MiniGrid CL环境中成功学习了更多任务,在干扰后更快地恢复了对重新访问任务的能力,并在任务序列中保持了更高的性能。具体来说,TeLAPA在学习任务数量上超过了基线方法,并且在干扰后恢复到原有性能的速度更快。此外,TeLAPA在整个任务序列中保持了更高的平均性能,表明其具有更好的长期学习能力。分析还表明,源最优策略通常不是迁移最优的,有效的重用需要保留和选择多个附近的替代方案。

🎯 应用场景

TeLAPA框架具有广泛的应用前景,例如机器人控制、游戏AI、自动驾驶等领域。在这些领域中,环境通常是动态变化的,智能体需要不断学习新的知识和技能。TeLAPA框架可以帮助智能体更好地适应环境的变化,并在需要时快速切换到合适的策略,从而提高智能体的性能和鲁棒性。该研究对于开发更具适应性和鲁棒性的终身学习智能体具有重要意义。

📄 摘要(原文)

Continual reinforcement learning must balance retention with adaptation, yet many methods still rely on \emph{single-model preservation}, committing to one evolving policy as the main reusable solution across tasks. Even when a previously successful policy is retained, it may no longer provide a reliable starting point for rapid adaptation after interference, reflecting a form of \emph{loss of plasticity} that single-policy preservation cannot address. Inspired by quality-diversity methods, we introduce \textsc{TeLAPA} (Transfer-Enabled Latent-Aligned Policy Archives), a continual RL framework that organizes behaviorally diverse policy neighborhoods into per-task archives and maintains a shared latent space so that archived policies remain comparable and reusable under non-stationary drift. This perspective shifts continual RL from retaining isolated solutions to maintaining \emph{skill-aligned neighborhoods} with competent and behaviorally related policies that support future relearning. In our MiniGrid CL setting, \textsc{TeLAPA} learns more tasks successfully, recovers competence faster on revisited tasks after interference, and retains higher performance across a sequence of tasks. Our analyses show that source-optimal policies are often not transfer-optimal, even within a local competent neighborhood, and that effective reuse depends on retaining and selecting among multiple nearby alternatives rather than collapsing them to one representative. Together, these results reframe continual RL around reusable and competent policy neighborhoods, providing a route beyond single-model preservation toward more plastic lifelong agents.