A Forget-and-Grow Strategy for Deep Reinforcement Learning Scaling in Continuous Control

📄 arXiv: 2507.02712v1 📥 PDF

作者: Zilin Kang, Chenyuan Hu, Yu Luo, Zhecheng Yuan, Ruijie Zheng, Huazhe Xu

分类: cs.LG

发布日期: 2025-07-03


💡 一句话要点

提出Forget and Grow算法,通过遗忘早期经验和动态扩展网络解决深度强化学习中的首因偏差问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 连续控制 首因偏差 经验回放 网络扩展

📋 核心要点

  1. 现有深度强化学习方法易受首因偏差影响,过度拟合回放缓冲区中的早期经验,限制了样本效率和泛化能力。
  2. FoG算法模拟神经科学中的遗忘和生长过程,通过经验回放衰减和网络扩展机制,平衡记忆并增强智能体能力。
  3. 实验结果表明,FoG算法在多个连续控制任务中显著优于现有先进算法,验证了其有效性。

📝 摘要(中文)

针对连续控制中的深度强化学习算法易受首因偏差影响,导致样本效率和泛化能力受限的问题,本文提出了一种名为Forget and Grow (FoG) 的新型深度强化学习算法。FoG算法受到神经科学中遗忘和生长双重过程的启发,引入了两个关键机制。首先,经验回放衰减(ER Decay)机制通过逐渐降低早期经验的影响来“遗忘早期经验”,从而平衡记忆。其次,网络扩展机制通过在训练过程中动态添加新的参数来增强智能体利用现有数据模式的能力,从而“增长神经容量”。在四个主要的连续控制基准测试中,超过40个任务的实验结果表明,FoG算法优于现有的最先进的深度强化学习算法,包括BRO、SimBa和TD-MPC2。

🔬 方法详解

问题定义:深度强化学习在连续控制任务中面临着“首因偏差”问题。智能体倾向于过度拟合早期经验,导致后续学习受到限制,无法充分利用新数据,从而影响样本效率和泛化能力。现有的方法难以有效地平衡早期经验和新经验之间的关系,导致学习过程不稳定。

核心思路:FoG算法的核心思路是模拟人类大脑中的“遗忘”和“生长”机制。通过“遗忘”早期经验,降低其对当前学习的影响,避免首因偏差;通过“生长”网络容量,增强智能体对现有数据的学习能力,提高策略的表达能力。这种双重机制旨在平衡记忆,提高学习效率和泛化能力。

技术框架:FoG算法的整体框架基于现有的深度强化学习算法(例如,TD3、SAC等),并在此基础上添加了两个主要模块:经验回放衰减(ER Decay)和网络扩展。ER Decay模块负责对回放缓冲区中的经验进行加权,降低早期经验的权重;网络扩展模块负责在训练过程中动态地增加神经网络的参数,提高网络的表达能力。这两个模块协同工作,共同提高智能体的学习性能。

关键创新:FoG算法的关键创新在于同时引入了经验回放衰减和网络扩展两种机制,并将其结合起来解决首因偏差问题。经验回放衰减机制通过降低早期经验的权重,减少了早期经验对当前学习的影响;网络扩展机制通过动态增加网络参数,提高了网络的表达能力,使得智能体能够更好地学习和利用现有数据。这种双重机制的结合是现有方法所不具备的。

关键设计:ER Decay模块的关键设计在于衰减函数的选择。论文中可能使用了线性衰减、指数衰减或其他形式的衰减函数,用于控制早期经验权重的降低速度。网络扩展模块的关键设计在于扩展策略的选择,例如,可以随机添加新的神经元或层,也可以根据某种准则选择性地添加。此外,损失函数的设计也需要考虑网络扩展的影响,例如,可以添加正则化项来防止过拟合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FoG算法在四个主要的连续控制基准测试中,超过40个任务上,均优于现有的最先进的深度强化学习算法,包括BRO、SimBa和TD-MPC2。具体的性能提升幅度未知,但摘要中明确指出FoG算法取得了“superior performance”,表明其性能提升具有统计显著性。

🎯 应用场景

FoG算法具有广泛的应用前景,可以应用于机器人控制、自动驾驶、游戏AI等领域。通过解决首因偏差问题,FoG算法可以提高智能体的学习效率和泛化能力,使其能够更好地适应复杂环境和新任务。未来,FoG算法可以进一步扩展到其他深度强化学习算法中,并与其他技术相结合,例如,元学习、迁移学习等,以提高智能体的学习性能。

📄 摘要(原文)

Deep reinforcement learning for continuous control has recently achieved impressive progress. However, existing methods often suffer from primacy bias, a tendency to overfit early experiences stored in the replay buffer, which limits an RL agent's sample efficiency and generalizability. In contrast, humans are less susceptible to such bias, partly due to infantile amnesia, where the formation of new neurons disrupts early memory traces, leading to the forgetting of initial experiences. Inspired by this dual processes of forgetting and growing in neuroscience, in this paper, we propose Forget and Grow (FoG), a new deep RL algorithm with two mechanisms introduced. First, Experience Replay Decay (ER Decay) "forgetting early experience", which balances memory by gradually reducing the influence of early experiences. Second, Network Expansion, "growing neural capacity", which enhances agents' capability to exploit the patterns of existing data by dynamically adding new parameters during training. Empirical results on four major continuous control benchmarks with more than 40 tasks demonstrate the superior performance of FoG against SoTA existing deep RL algorithms, including BRO, SimBa, and TD-MPC2.