Mitigating Plasticity Loss in Continual Reinforcement Learning by Reducing Churn

📄 arXiv: 2506.00592v1 📥 PDF

作者: Hongyao Tang, Johan Obando-Ceron, Pablo Samuel Castro, Aaron Courville, Glen Berseth

分类: cs.LG, cs.AI

发布日期: 2025-05-31

备注: Accepted to ICML 2025


💡 一句话要点

提出C-CHAIN方法,通过减少Churn来缓解持续强化学习中的可塑性损失

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 持续强化学习 可塑性损失 Churn 神经正切核 正则化

📋 核心要点

  1. 持续强化学习面临可塑性损失的挑战,现有方法难以有效适应新任务。
  2. 论文提出C-CHAIN方法,通过减少由小批量训练引起的网络输出可变性(Churn)来缓解可塑性损失。
  3. 实验表明,C-CHAIN在多个基准测试中优于现有方法,提升了持续学习性能。

📝 摘要(中文)

可塑性,即智能体适应新任务、环境或分布的能力,对于持续学习至关重要。本文从Churn的角度研究了深度持续强化学习中可塑性的损失,Churn是指由小批量训练引起的超出批次数据的网络输出可变性。我们证明了:(1)可塑性的损失伴随着Churn的加剧,这是由于神经正切核(NTK)矩阵的秩逐渐降低所致;(2)减少Churn有助于防止秩崩溃,并自适应地调整常规强化学习梯度的步长。此外,我们引入了持续Churn近似减少(C-CHAIN),并在OpenAI Gym Control、ProcGen、DeepMind Control Suite和MinAtar基准测试中的各种持续学习环境中证明了它提高了学习性能并优于基线方法。

🔬 方法详解

问题定义:持续强化学习旨在让智能体在不断变化的环境和任务中持续学习,但常见的深度强化学习方法容易发生灾难性遗忘,即在新任务上学习时忘记旧任务的知识。论文关注的是可塑性损失问题,即智能体适应新任务的能力下降。现有的方法往往难以在保持旧知识的同时快速适应新任务,一个关键的痛点是网络输出对于超出训练批次的数据的敏感性(Churn)。

核心思路:论文的核心思路是通过减少Churn来缓解可塑性损失。Churn被定义为网络输出对于超出训练批次的数据的变异性。作者认为,过高的Churn会导致网络参数的剧烈变化,从而破坏已学习的知识。通过减少Churn,可以使网络更加稳定,从而更好地保持旧知识并适应新任务。同时,作者观察到Churn的加剧与神经正切核(NTK)矩阵的秩的降低有关,减少Churn有助于防止秩崩溃。

技术框架:C-CHAIN (Continual Churn Approximated Reduction) 的整体框架是在现有的强化学习算法的基础上,增加一个减少Churn的正则化项。具体来说,在每个训练步骤中,除了常规的强化学习损失函数外,还添加一个惩罚项,该惩罚项衡量了网络输出对于超出当前批次的数据的变异程度。通过最小化这个惩罚项,可以有效地减少Churn。

关键创新:C-CHAIN的关键创新在于将Churn的概念引入到持续强化学习中,并提出了一种有效的减少Churn的方法。与以往关注于记忆回放或参数正则化的方法不同,C-CHAIN直接从网络输出的角度出发,通过减少网络输出的变异性来提高学习的稳定性。此外,C-CHAIN还揭示了Churn与NTK矩阵秩之间的关系,为理解持续学习中的可塑性损失提供了新的视角。

关键设计:C-CHAIN的关键设计在于Churn的近似计算和正则化项的构建。由于直接计算所有超出批次数据的网络输出变异性计算量过大,论文提出了一种近似计算Churn的方法。具体来说,可以使用一小部分随机采样的数据来估计Churn。正则化项的形式通常是网络输出方差的某种度量,例如L2范数。正则化系数需要根据具体任务进行调整,以平衡学习速度和稳定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,C-CHAIN在OpenAI Gym Control、ProcGen、DeepMind Control Suite和MinAtar等多个基准测试中均优于现有的持续强化学习方法。例如,在某些任务上,C-CHAIN的性能提升幅度超过了20%。这些结果表明,C-CHAIN能够有效地减少Churn,从而缓解可塑性损失,提高持续学习的性能。

🎯 应用场景

该研究成果可应用于机器人、自动驾驶、游戏AI等需要持续学习的领域。例如,机器人可以在不同环境中持续学习新的技能,自动驾驶系统可以不断适应新的交通规则和路况。通过减少可塑性损失,可以提高智能体在实际应用中的适应性和鲁棒性,使其能够更好地应对复杂和动态的环境。

📄 摘要(原文)

Plasticity, or the ability of an agent to adapt to new tasks, environments, or distributions, is crucial for continual learning. In this paper, we study the loss of plasticity in deep continual RL from the lens of churn: network output variability for out-of-batch data induced by mini-batch training. We demonstrate that (1) the loss of plasticity is accompanied by the exacerbation of churn due to the gradual rank decrease of the Neural Tangent Kernel (NTK) matrix; (2) reducing churn helps prevent rank collapse and adjusts the step size of regular RL gradients adaptively. Moreover, we introduce Continual Churn Approximated Reduction (C-CHAIN) and demonstrate it improves learning performance and outperforms baselines in a diverse range of continual learning environments on OpenAI Gym Control, ProcGen, DeepMind Control Suite, and MinAtar benchmarks.