SPHERE: Mitigating the Loss of Spectral Plasticity in Mixture-of-Experts for Deep Reinforcement Learning
作者: Lirui Luo, Guoxi Zhang, Hongming Xu, Cong Fang, Qing Li
分类: cs.LG
发布日期: 2026-05-06
备注: Accepted to ICML 2026
💡 一句话要点
提出SPHERE,缓解MoE在深度强化学习中因持续学习导致的光谱可塑性损失
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 深度强化学习 混合专家网络 持续学习 可塑性损失 神经正切核
📋 核心要点
- 持续强化学习中,MoE网络存在可塑性损失,导致学习新技能能力下降。
- 论文将MoE策略中的可塑性损失形式化为光谱可塑性损失,并提出SPHERE。
- SPHERE在MetaWorld和HumanoidBench上显著提升了持续强化学习的性能。
📝 摘要(中文)
在深度强化学习(DRL)中,智能体通过经验流进行训练。在持续学习环境中,这些智能体可能会遭受可塑性损失:从新经验中学习新技能的能力随着训练的进行而降低。最近,混合专家(MoE)网络被报道能够实现scaling laws并促进多样化技能的学习。然而,在持续强化学习环境中,它们的性能会随着学习的进行而退化,表明存在可塑性损失。为了解决这个问题,基于神经正切核(NTK)理论,我们将MoE策略中的可塑性损失形式化为光谱可塑性损失。然后,我们推导出一个易于处理的光谱可塑性代理,该代理可以用单个专家特征矩阵来表示。利用这个代理,我们引入了SPHERE,一种为基于MoE的策略量身定制的实用Parseval惩罚,可以减轻光谱可塑性的损失。在MetaWorld和HumanoidBench上,SPHERE在持续强化学习下,相对于未正则化的MoE基线,平均成功率分别提高了133%和50%,同时在整个训练过程中保持了更高的光谱可塑性。
🔬 方法详解
问题定义:论文旨在解决深度强化学习中,混合专家(MoE)网络在持续学习场景下出现的可塑性损失问题。现有MoE方法在持续学习中性能退化,无法有效学习新技能,限制了其在动态环境中的应用。
核心思路:论文的核心思路是将MoE策略的可塑性损失与神经正切核(NTK)理论联系起来,将其形式化为光谱可塑性损失。通过推导出一个易于计算的光谱可塑性代理,并基于此设计Parseval惩罚项,从而缓解可塑性损失。
技术框架:SPHERE方法主要包含以下几个阶段:1) 使用MoE策略进行强化学习训练;2) 计算每个专家的特征矩阵;3) 基于特征矩阵计算光谱可塑性代理;4) 将Parseval惩罚项添加到损失函数中,以正则化MoE策略,从而缓解光谱可塑性损失。
关键创新:论文的关键创新在于:1) 将MoE策略的可塑性损失与NTK理论联系起来,提出了光谱可塑性的概念;2) 推导出了一个易于计算的光谱可塑性代理,使得可以在训练过程中监控和优化光谱可塑性;3) 设计了一种针对MoE策略的Parseval惩罚项,能够有效缓解光谱可塑性损失。
关键设计:SPHERE的关键设计包括:1) 光谱可塑性代理的计算方式,它基于专家特征矩阵的奇异值分解;2) Parseval惩罚项的权重系数,需要根据具体任务进行调整;3) MoE网络的结构,包括专家数量、专家网络的结构等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SPHERE方法在MetaWorld和HumanoidBench两个基准测试中,相对于未正则化的MoE基线,平均成功率分别提高了133%和50%。同时,SPHERE方法在整个训练过程中保持了更高的光谱可塑性,验证了其缓解可塑性损失的有效性。
🎯 应用场景
该研究成果可应用于机器人持续学习、游戏AI、自动驾驶等领域。通过缓解MoE网络的可塑性损失,可以使智能体在不断变化的环境中持续学习和适应,从而提高其泛化能力和鲁棒性。未来的研究可以探索更有效的可塑性度量和正则化方法,进一步提升持续学习的性能。
📄 摘要(原文)
In deep reinforcement learning (DRL), an agent is trained from a stream of experience. In a continual learning setting, such agents can suffer from plasticity loss: their ability to learn new skills from new experiences diminishes over training. Recently, Mixture-of-Experts (MoE) networks have been reported to enable scaling laws and facilitate the learning of diverse skills. However, in continual reinforcement learning settings, their performance can degenerate as learning proceeds, indicating a loss of plasticity. To address this, building on Neural Tangent Kernel (NTK) theory, we formalize the plasticity loss in MoE policies as a loss of spectral plasticity. We then derive a tractable proxy for spectral plasticity, one expressible in terms of individual expert feature matrices. Leveraging this proxy, we introduce SPHERE, a practical Parseval penalty tailored for MoE-based policies that alleviates the loss of spectral plasticity. On MetaWorld and HumanoidBench, SPHERE improves average success under continual RL by 133% and 50% over an unregularized MoE baseline, while maintaining higher spectral plasticity throughout training.