ARROW: Augmented Replay for RObust World models
作者: Abdulaziz Alyahya, Abdallah Al Siyabi, Markus R. Ernst, Luke Yang, Levin Kuhlmann, Gideon Kowadlo
分类: cs.LG, cs.AI
发布日期: 2026-03-12
备注: 27 pages and 8 figures (includes Appendix)
💡 一句话要点
ARROW:通过增强回放提升世界模型的鲁棒性,解决持续强化学习中的灾难性遗忘问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 持续强化学习 世界模型 回放缓冲区 灾难性遗忘 增强回放
📋 核心要点
- 持续强化学习面临灾难性遗忘问题,现有基于回放缓冲区的无模型方法存在内存需求大的可扩展性挑战。
- ARROW算法受神经科学启发,使用双缓冲区的增强回放机制,维护短期记忆和长期任务多样性,提升世界模型的鲁棒性。
- 实验表明,ARROW在无共享结构的任务上显著减少遗忘,并在有共享结构的任务上保持了良好的前向迁移能力。
📝 摘要(中文)
持续强化学习旨在使智能体在学习新技能的同时保留先前学习的技能,从而提高在过去和未来任务中的表现。现有方法主要依赖于具有回放缓冲区的无模型方法来缓解灾难性遗忘;然而,这些解决方案通常面临着由于大量内存需求而导致的可扩展性挑战。受神经科学的启发,大脑将经验回放到预测性世界模型,而不是直接回放到策略,我们提出了ARROW(增强回放以实现鲁棒的世界模型),这是一种基于模型的持续强化学习算法,它使用内存高效、分布匹配的回放缓冲区扩展了DreamerV3。与标准固定大小的FIFO缓冲区不同,ARROW维护两个互补的缓冲区:一个用于最近经验的短期缓冲区和一个通过智能采样保持任务多样性的长期缓冲区。我们在两个具有挑战性的持续强化学习设置中评估了ARROW:没有共享结构的任务(Atari)和具有共享结构的任务,知识转移是可能的(Procgen CoinRun变体)。与具有相同大小回放缓冲区的无模型和基于模型的基线相比,ARROW在没有共享结构的任务上表现出明显更少的遗忘,同时保持了相当的前向迁移。我们的发现突出了基于模型的强化学习和生物启发方法在持续强化学习中的潜力,值得进一步研究。
🔬 方法详解
问题定义:持续强化学习中的灾难性遗忘问题,即智能体在学习新任务时忘记先前学习的任务。现有基于回放缓冲区的无模型方法,虽然可以缓解遗忘,但需要大量的内存来存储经验,导致可扩展性差。
核心思路:借鉴神经科学中大脑将经验回放到世界模型的机制,提出一种基于模型的持续强化学习算法ARROW。核心思想是维护一个内存高效、分布匹配的回放缓冲区,并结合DreamerV3,使得智能体能够更好地学习和保留知识。
技术框架:ARROW算法基于DreamerV3框架,并引入了增强回放机制。整体流程包括:1) 智能体与环境交互,收集经验;2) 将经验存储到双缓冲区中(短期缓冲区和长期缓冲区);3) 从缓冲区中采样经验,训练世界模型;4) 使用世界模型生成虚拟经验,训练策略。
关键创新:ARROW的关键创新在于双缓冲区的增强回放机制。短期缓冲区存储最近的经验,保证对当前任务的学习;长期缓冲区通过智能采样保持任务多样性,缓解灾难性遗忘。这种双缓冲区的设计能够更有效地利用有限的内存资源,提升模型的鲁棒性。
关键设计:ARROW的关键设计包括:1) 短期缓冲区采用FIFO策略,存储最近的经验;2) 长期缓冲区采用基于分布匹配的采样策略,选择具有代表性的经验,保持任务多样性;3) 使用KL散度等指标来衡量经验的代表性,并根据经验的重要性进行采样;4) 缓冲区的大小需要根据具体任务进行调整,以平衡学习效果和内存消耗。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在Atari游戏中,ARROW算法相比于其他基于回放缓冲区的无模型和基于模型的方法,显著减少了灾难性遗忘。在Procgen CoinRun游戏中,ARROW算法在保持了与基线方法相当的前向迁移能力的同时,也表现出了更强的鲁棒性。这些结果验证了ARROW算法在持续强化学习中的有效性。
🎯 应用场景
ARROW算法在机器人、游戏AI等领域具有广泛的应用前景。例如,可以应用于机器人学习连续执行不同任务,或者游戏AI学习不同游戏关卡。通过缓解灾难性遗忘,ARROW可以使智能体在复杂环境中持续学习和适应,提高其泛化能力和鲁棒性。
📄 摘要(原文)
Continual reinforcement learning challenges agents to acquire new skills while retaining previously learned ones with the goal of improving performance in both past and future tasks. Most existing approaches rely on model-free methods with replay buffers to mitigate catastrophic forgetting; however, these solutions often face significant scalability challenges due to large memory demands. Drawing inspiration from neuroscience, where the brain replays experiences to a predictive World Model rather than directly to the policy, we present ARROW (Augmented Replay for RObust World models), a model-based continual RL algorithm that extends DreamerV3 with a memory-efficient, distribution-matching replay buffer. Unlike standard fixed-size FIFO buffers, ARROW maintains two complementary buffers: a short-term buffer for recent experiences and a long-term buffer that preserves task diversity through intelligent sampling. We evaluate ARROW on two challenging continual RL settings: Tasks without shared structure (Atari), and tasks with shared structure, where knowledge transfer is possible (Procgen CoinRun variants). Compared to model-free and model-based baselines with replay buffers of the same-size, ARROW demonstrates substantially less forgetting on tasks without shared structure, while maintaining comparable forward transfer. Our findings highlight the potential of model-based RL and bio-inspired approaches for continual reinforcement learning, warranting further research.