Mastering Continual Reinforcement Learning through Fine-Grained Sparse Network Allocation and Dormant Neuron Exploration

作者: Chengqi Zheng, Haiyan Yin, Jianda Chen, Terence Ng, Yew-Soon Ong, Ivor Tsang

分类: cs.LG

发布日期: 2025-03-07 (更新: 2025-03-10)

🔗 代码/项目: GITHUB

💡 一句话要点

提出SSDE，通过细粒度稀疏网络分配和休眠神经元探索，解决持续强化学习中的灾难性遗忘问题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 持续强化学习 灾难性遗忘 稀疏网络 神经元探索 结构化学习

📋 核心要点

持续强化学习面临灾难性遗忘问题，现有方法难以平衡可塑性和稳定性，导致新任务学习困难，旧知识丢失。
SSDE通过细粒度稀疏网络分配，将参数分为冻结和可训练两部分，并利用休眠神经元探索机制增强适应性。
在CW10-v1基准测试中，SSDE成功率达到95%，显著优于现有方法，在可塑性和稳定性之间取得了更好的平衡。

📝 摘要（中文）

持续强化学习(CRL)对于开发能够随时间学习、适应和积累知识的智能体至关重要。然而，一个根本性的挑战依然存在，即智能体必须在可塑性（能够快速掌握技能）和稳定性（确保长期知识保留，同时防止灾难性遗忘）之间取得微妙的平衡。本文提出了一种新的基于结构的方法SSDE，通过具有结构化稀疏性和休眠引导探索的细粒度分配策略来增强可塑性。SSDE将参数空间分解为前向迁移（冻结）参数和特定于任务的（可训练）参数。关键是，这些参数通过稀疏编码下的高效协同分配方案进行分配，确保新任务有足够的可训练容量，同时通过冻结参数促进高效的前向迁移。然而，基于结构的方法通常会因非可训练参数的积累而导致刚性，从而限制了探索和适应性。为了解决这个问题，我们进一步引入了一种敏感性引导的神经元重新激活机制，该机制系统地识别并重置休眠神经元，这些神经元在推理过程中在稀疏策略网络中表现出最小的影响。这种方法有效地增强了探索，同时保持了结构效率。在CW10-v1 Continual World基准上的大量实验表明，SSDE实现了最先进的性能，成功率达到95%，在可塑性和稳定性权衡方面显著超过了先前的方法。

🔬 方法详解

问题定义：持续强化学习旨在让智能体在不断变化的环境中学习多个任务，但灾难性遗忘问题严重阻碍了这一目标。现有方法要么过度关注稳定性而牺牲了可塑性，导致学习新任务困难；要么过度关注可塑性而忘记了之前学习的知识。如何在保证知识保留的同时，快速适应新任务是核心挑战。

核心思路：SSDE的核心思路是将网络参数划分为对新任务学习至关重要的可训练参数和负责知识迁移的冻结参数，并通过稀疏编码实现高效的参数分配。此外，通过激活休眠神经元来增强网络的探索能力，避免陷入局部最优，从而在可塑性和稳定性之间取得平衡。

技术框架：SSDE主要包含两个核心模块：细粒度稀疏网络分配和休眠神经元探索。细粒度稀疏网络分配模块负责将网络参数划分为可训练和冻结两部分，并使用稀疏编码进行高效分配。休眠神经元探索模块则通过敏感性分析识别并重新激活网络中不活跃的神经元，以增强探索能力。整体流程是，对于每个新任务，首先进行稀疏网络分配，然后进行策略学习，最后进行休眠神经元探索。

关键创新：SSDE的关键创新在于其细粒度的稀疏网络分配策略和休眠神经元探索机制。传统的结构化方法通常采用粗粒度的参数分配，限制了网络的表达能力。SSDE通过细粒度的分配策略，能够更灵活地分配参数，从而更好地适应新任务。此外，休眠神经元探索机制能够有效地增强网络的探索能力，避免陷入局部最优，这是现有方法所缺乏的。

关键设计：SSDE的关键设计包括：1) 使用结构化稀疏性进行参数分配，保证网络结构的稀疏性；2) 使用敏感性分析来识别休眠神经元，具体方法是计算每个神经元输出对最终策略的影响，影响较小的神经元被认为是休眠的；3) 使用重置机制来激活休眠神经元，即将这些神经元的权重随机初始化，使其重新参与到策略学习中。

🖼️ 关键图片

📊 实验亮点

SSDE在CW10-v1 Continual World基准测试中取得了显著的性能提升，成功率达到95%，超越了现有方法。实验结果表明，SSDE在可塑性和稳定性之间取得了更好的平衡，能够有效地防止灾难性遗忘，并快速适应新任务。与现有方法相比，SSDE在平均奖励和最终性能方面均有显著提升。

🎯 应用场景

SSDE在持续强化学习领域具有广泛的应用前景，例如机器人导航、游戏AI、自动驾驶等。通过持续学习，智能体可以不断适应新的环境和任务，提高其在复杂环境中的适应性和鲁棒性。该研究对于开发能够自主学习和适应的智能体具有重要的实际价值和未来影响。

📄 摘要（原文）

Continual Reinforcement Learning (CRL) is essential for developing agents that can learn, adapt, and accumulate knowledge over time. However, a fundamental challenge persists as agents must strike a delicate balance between plasticity, which enables rapid skill acquisition, and stability, which ensures long-term knowledge retention while preventing catastrophic forgetting. In this paper, we introduce SSDE, a novel structure-based approach that enhances plasticity through a fine-grained allocation strategy with Structured Sparsity and Dormant-guided Exploration. SSDE decomposes the parameter space into forward-transfer (frozen) parameters and task-specific (trainable) parameters. Crucially, these parameters are allocated by an efficient co-allocation scheme under sparse coding, ensuring sufficient trainable capacity for new tasks while promoting efficient forward transfer through frozen parameters. However, structure-based methods often suffer from rigidity due to the accumulation of non-trainable parameters, limiting exploration and adaptability. To address this, we further introduce a sensitivity-guided neuron reactivation mechanism that systematically identifies and resets dormant neurons, which exhibit minimal influence in the sparse policy network during inference. This approach effectively enhance exploration while preserving structural efficiency. Extensive experiments on the CW10-v1 Continual World benchmark demonstrate that SSDE achieves state-of-the-art performance, reaching a success rate of 95%, surpassing prior methods significantly in both plasticity and stability trade-offs (code is available at: https://github.com/chengqiArchy/SSDE).

Mastering Continual Reinforcement Learning through Fine-Grained Sparse Network Allocation and Dormant Neuron Exploration

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理