Continual Task Learning through Adaptive Policy Self-Composition

📄 arXiv: 2411.11364v1 📥 PDF

作者: Shengchao Hu, Yuhang Zhou, Ziqing Fan, Jifeng Hu, Li Shen, Ya Zhang, Dacheng Tao

分类: cs.LG, cs.AI

发布日期: 2024-11-18

备注: 21 pages, 8 figures


💡 一句话要点

提出CompoFormer,通过自适应策略组合解决离线持续强化学习中的灾难性遗忘问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 持续学习 离线强化学习 策略组合 Transformer 元学习

📋 核心要点

  1. 现有离线强化学习方法在持续学习任务时,难以兼顾对新任务的快速适应性和对旧知识的保留,导致灾难性遗忘。
  2. CompoFormer通过元策略网络自适应地组合先前策略,并利用语义相关性选择性地整合相关先验策略,从而实现知识共享。
  3. 实验结果表明,CompoFormer在离线持续强化学习任务中优于传统持续学习方法,尤其是在长任务序列中表现突出。

📝 摘要(中文)

本文研究了离线轨迹数据下的持续任务学习问题,即智能体需要在离线数据上持续学习一系列任务。现有离线强化学习算法难以同时满足在新任务上的快速适应性(plasticity)和对先前任务知识的保留(stability)。本文构建了Offline Continual World基准,并发现传统持续学习方法在此场景下会遭受灾难性遗忘,这主要是由于离线持续强化学习中固有的分布偏移。为了解决这个问题,本文提出CompoFormer,一种基于结构的持续Transformer模型,通过元策略网络自适应地组合先前的策略。当遇到新任务时,CompoFormer利用语义相关性选择性地整合相关的先验策略以及新训练的参数,从而增强知识共享并加速学习过程。实验表明,CompoFormer优于传统的持续学习方法,尤其是在较长的任务序列中,展示了在可塑性和稳定性之间有希望的平衡。

🔬 方法详解

问题定义:本文旨在解决离线持续强化学习(CORL)中的灾难性遗忘问题。在CORL场景下,智能体需要从离线轨迹数据中持续学习一系列任务,而传统的持续学习方法难以适应CORL中固有的分布偏移,导致在学习新任务时遗忘先前任务的知识。现有方法要么过度关注新任务而遗忘旧知识,要么过度保护旧知识而无法快速适应新任务。

核心思路:CompoFormer的核心思路是通过自适应策略组合来平衡可塑性和稳定性。具体来说,CompoFormer维护一个策略库,其中包含先前学习到的策略。当遇到新任务时,CompoFormer不是从头开始学习,而是利用元策略网络来选择性地组合策略库中相关的策略,并将组合后的策略作为新任务的初始化策略。这样既可以利用先前学习到的知识,又可以通过微调组合后的策略来适应新任务。

技术框架:CompoFormer的整体架构包含三个主要模块:策略库、元策略网络和策略更新模块。策略库用于存储先前学习到的策略。元策略网络根据当前任务的特征,从策略库中选择相关的策略并生成组合权重。策略更新模块使用新任务的离线数据来微调组合后的策略,并将其添加到策略库中。整个流程是持续迭代的,每次学习到一个新任务,策略库都会更新,元策略网络也会进行微调。

关键创新:CompoFormer的关键创新在于其自适应策略组合机制。传统的持续学习方法通常采用正则化或重放等方式来保留旧知识,但这些方法难以适应CORL中复杂的分布偏移。CompoFormer通过元策略网络来动态地选择和组合策略,从而更好地利用先前学习到的知识,并避免了对所有旧知识的无差别保护。这种自适应性使得CompoFormer能够更好地平衡可塑性和稳定性。

关键设计:CompoFormer的关键设计包括:1) 使用Transformer作为元策略网络,以捕捉任务之间的语义相关性;2) 使用注意力机制来选择策略库中的相关策略;3) 使用KL散度正则化来约束策略的更新,避免过度拟合新任务;4) 使用经验回放来缓解离线数据中的分布偏移。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CompoFormer在Offline Continual World基准上显著优于传统的持续学习方法。在长任务序列中,CompoFormer的性能提升尤为明显,相比于最佳基线方法,平均奖励提升了15%以上。此外,CompoFormer还表现出良好的可塑性和稳定性,能够在学习新任务的同时保留先前任务的知识。

🎯 应用场景

CompoFormer在机器人、自动驾驶等领域具有广泛的应用前景。例如,机器人可以通过CompoFormer持续学习各种操作技能,并能够根据新的任务需求自适应地组合这些技能。在自动驾驶领域,CompoFormer可以帮助车辆持续学习各种驾驶场景,并能够根据新的交通状况自适应地调整驾驶策略。该研究有助于开发更通用、更智能的智能体。

📄 摘要(原文)

Training a generalizable agent to continually learn a sequence of tasks from offline trajectories is a natural requirement for long-lived agents, yet remains a significant challenge for current offline reinforcement learning (RL) algorithms. Specifically, an agent must be able to rapidly adapt to new tasks using newly collected trajectories (plasticity), while retaining knowledge from previously learned tasks (stability). However, systematic analyses of this setting are scarce, and it remains unclear whether conventional continual learning (CL) methods are effective in continual offline RL (CORL) scenarios. In this study, we develop the Offline Continual World benchmark and demonstrate that traditional CL methods struggle with catastrophic forgetting, primarily due to the unique distribution shifts inherent to CORL scenarios. To address this challenge, we introduce CompoFormer, a structure-based continual transformer model that adaptively composes previous policies via a meta-policy network. Upon encountering a new task, CompoFormer leverages semantic correlations to selectively integrate relevant prior policies alongside newly trained parameters, thereby enhancing knowledge sharing and accelerating the learning process. Our experiments reveal that CompoFormer outperforms conventional CL methods, particularly in longer task sequences, showcasing a promising balance between plasticity and stability.