Knowledge Retention for Continual Model-Based Reinforcement Learning
作者: Yixiang Sun, Haotian Fu, Michael Littman, George Konidaris
分类: cs.LG, cs.AI
发布日期: 2025-03-06 (更新: 2025-06-06)
💡 一句话要点
DRAGO:面向持续模型强化学习的知识保留方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 持续强化学习 模型强化学习 知识保留 合成经验回放 内在奖励 世界模型 增量学习
📋 核心要点
- 现有持续强化学习方法在学习新任务时容易遗忘旧任务的知识,尤其是在模型强化学习中,如何有效保留和利用先前学习的世界模型是一个挑战。
- DRAGO通过合成经验回放和探索重获记忆两种机制,在不存储原始数据的情况下,强化先前学习的动力学,并引导智能体重新访问相关状态。
- 实验结果表明,DRAGO能够在持续学习场景中有效保留知识,并在多个任务上取得了优于现有方法的性能。
📝 摘要(中文)
本文提出了一种名为DRAGO的持续模型强化学习新方法,旨在改进世界模型在奖励函数不同但状态空间或动力学相同的任务序列中的增量开发。DRAGO包含两个关键组成部分:合成经验回放,它利用生成模型从过去的任务中创建合成经验,使智能体无需存储数据即可加强先前学习的动力学;以及通过探索重获记忆,它引入了一种内在奖励机制,引导智能体重新访问先前任务中的相关状态。这些组件共同使智能体能够维护一个全面的、持续发展的世界模型,从而促进跨不同环境的更有效的学习和适应。经验评估表明,DRAGO能够跨任务保留知识,在各种持续学习场景中实现卓越的性能。
🔬 方法详解
问题定义:论文旨在解决持续模型强化学习中的知识遗忘问题。在任务序列中,奖励函数发生变化,但状态空间和动力学保持不变。现有方法在学习新任务时,容易覆盖或遗忘先前任务中学习到的世界模型,导致性能下降。
核心思路:DRAGO的核心思路是利用生成模型创建合成经验,并结合内在奖励机制引导智能体探索先前任务中的相关状态,从而在不存储原始数据的情况下,保留和利用先前学习的知识。
技术框架:DRAGO包含两个主要模块:1) 合成经验回放 (Synthetic Experience Rehearsal):使用生成模型(例如变分自编码器VAE或生成对抗网络GAN)学习先前任务的经验分布,并生成合成经验用于训练当前任务的世界模型。2) 通过探索重获记忆 (Regaining Memories Through Exploration):引入内在奖励,鼓励智能体探索先前任务中重要的状态,从而激活并巩固先前学习的知识。整体流程是,在学习新任务时,智能体首先利用合成经验回放来初始化世界模型,然后通过内在奖励引导的探索来进一步优化模型。
关键创新:DRAGO的关键创新在于将合成经验回放和内在奖励机制相结合,用于持续模型强化学习。合成经验回放避免了存储原始数据,降低了存储成本,并保护了隐私。内在奖励机制则引导智能体主动探索先前任务中的相关状态,从而更有效地重塑记忆。
关键设计:合成经验回放使用VAE或GAN来学习先前任务的经验分布。内在奖励的设计基于智能体访问状态的频率和重要性,例如,可以采用基于访问次数的奖励或基于信息增益的奖励。具体参数设置和网络结构的选择取决于具体的任务和环境。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DRAGO在多个持续学习场景中优于现有的持续强化学习方法。具体而言,DRAGO在保留先前任务知识方面表现出色,能够在学习新任务的同时,保持甚至提高在先前任务上的性能。相比于不使用知识保留机制的基线方法,DRAGO在多个任务上的平均奖励显著提升。
🎯 应用场景
DRAGO适用于机器人、自动驾驶等需要在不同任务之间持续学习和适应的领域。例如,机器人可以在不同的环境中学习导航,自动驾驶系统可以在不同的交通场景中学习驾驶策略。该方法能够有效利用先前学习的知识,提高学习效率和泛化能力,降低开发成本。
📄 摘要(原文)
We propose DRAGO, a novel approach for continual model-based reinforcement learning aimed at improving the incremental development of world models across a sequence of tasks that differ in their reward functions but not the state space or dynamics. DRAGO comprises two key components: Synthetic Experience Rehearsal, which leverages generative models to create synthetic experiences from past tasks, allowing the agent to reinforce previously learned dynamics without storing data, and Regaining Memories Through Exploration, which introduces an intrinsic reward mechanism to guide the agent toward revisiting relevant states from prior tasks. Together, these components enable the agent to maintain a comprehensive and continually developing world model, facilitating more effective learning and adaptation across diverse environments. Empirical evaluations demonstrate that DRAGO is able to preserve knowledge across tasks, achieving superior performance in various continual learning scenarios.