TSN-Affinity: Similarity-Driven Parameter Reuse for Continual Offline Reinforcement Learning
作者: Dominik Żurek, Kamil Faber, Marcin Pietron, Paweł Gajewski, Roberto Corizzo
分类: cs.LG, cs.AI
发布日期: 2026-04-28
🔗 代码/项目: GITHUB
💡 一句话要点
提出TSN-Affinity,通过相似性驱动的参数复用解决持续离线强化学习中的灾难性遗忘问题。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 持续离线强化学习 参数复用 灾难性遗忘 TinySubNetworks 相似性学习
📋 核心要点
- 现有CORL方法在防止灾难性遗忘和处理回放样本的分布不匹配问题上存在挑战,限制了其在实际场景中的应用。
- TSN-Affinity通过TinySubNetworks实现任务特定参数化,并利用RL感知的重用策略,根据动作兼容性和潜在相似性进行任务路由,实现知识共享。
- 在Atari和Franka Emika Panda机械臂操作任务上的实验表明,TSN-Affinity能有效保留已学知识,并提升多任务性能,优于传统回放方法。
📝 摘要(中文)
持续离线强化学习(CORL)旨在从随时间推移收集的数据集中学习一系列任务,同时保持先前学习任务的性能。这种设置对应于新任务随时间出现的领域,但在实时环境交互中调整模型是昂贵的、有风险的或不可能的。然而,CORL继承了离线强化学习的双重困难,即在防止灾难性遗忘的同时进行适应。基于回放的持续学习方法仍然是一个强大的基线,但会产生内存开销,并且回放样本与新学习策略之间存在分布不匹配。同时,架构持续学习方法在监督学习中显示出强大的潜力,但在CORL中仍未得到充分探索。在这项工作中,我们提出了一种新的CORL方法TSN-Affinity,它基于TinySubNetworks和Decision Transformer。该方法通过RL感知的重用策略实现任务特定的参数化和受控的知识共享,该策略根据动作兼容性和潜在相似性来路由任务。我们在基于Atari游戏和Franka Emika Panda机械臂操作任务模拟的基准上评估了该方法,涵盖了离散和连续控制。结果表明,稀疏子网络具有很强的保留能力,而路由进一步提高了多任务性能。我们的研究结果表明,相似性引导的架构重用是CORL环境中基于回放策略的一种强大且可行的替代方案。
🔬 方法详解
问题定义:论文旨在解决持续离线强化学习(CORL)中的灾难性遗忘问题。在CORL中,智能体需要从一系列离线数据集中学习连续的任务,同时保持在先前任务上的性能。现有方法,如基于回放的策略,虽然有效,但存在内存开销大和回放数据与当前策略分布不匹配的问题。而架构持续学习方法在CORL中的应用还不够成熟。
核心思路:论文的核心思路是利用TinySubNetworks(TSN)实现任务特定的参数化,并通过相似性驱动的参数复用策略来促进知识共享。具体来说,每个任务分配一个小的子网络,避免参数竞争导致的遗忘。同时,通过计算任务之间的动作兼容性和潜在空间相似性,将相似的任务路由到相同的子网络,实现知识迁移和泛化。
技术框架:TSN-Affinity的整体框架基于Decision Transformer,并引入了TSN和相似性驱动的路由机制。框架包含以下主要模块:1) TinySubNetworks:为每个任务分配一个小的子网络;2) 相似性计算模块:计算任务之间的动作兼容性和潜在空间相似性;3) 路由模块:根据相似性度量将任务路由到合适的子网络;4) Decision Transformer:利用路由后的子网络进行策略学习。
关键创新:该方法最重要的创新点在于提出了RL感知的相似性驱动的参数复用策略。与传统的参数隔离方法不同,TSN-Affinity允许相似的任务共享参数,从而实现知识迁移和泛化。与简单的参数共享方法不同,TSN-Affinity通过相似性度量来控制参数共享的程度,避免了负迁移。
关键设计:在相似性计算方面,论文考虑了动作兼容性和潜在空间相似性。动作兼容性通过比较不同任务的动作分布来衡量,潜在空间相似性通过计算任务在潜在空间中的距离来衡量。路由模块使用一个可学习的路由矩阵,根据相似性度量将任务路由到不同的子网络。损失函数包括策略学习损失和路由损失,其中路由损失用于鼓励相似的任务被路由到相同的子网络。
🖼️ 关键图片
📊 实验亮点
实验结果表明,TSN-Affinity在Atari游戏和Franka Emika Panda机械臂操作任务上均取得了显著的性能提升。在Atari游戏上,TSN-Affinity在多个任务上超过了基线方法,并且在持续学习过程中保持了较好的性能。在Franka Emika Panda机械臂操作任务上,TSN-Affinity在多任务学习和持续学习场景下均优于基线方法,验证了其在连续控制任务上的有效性。
🎯 应用场景
TSN-Affinity在机器人、游戏AI等领域具有广泛的应用前景。例如,在机器人领域,机器人可以通过离线数据学习一系列操作任务,并在新任务出现时快速适应,而无需进行大量的在线训练。在游戏AI领域,AI智能体可以学习不同类型的游戏,并在新游戏出现时快速掌握,提高学习效率和泛化能力。
📄 摘要(原文)
Continual offline reinforcement learning (CORL) aims to learn a sequence of tasks from datasets collected over time while preserving performance on previously learned tasks. This setting corresponds to domains where new tasks arise over time, but adapting the model in live environment interactions is expensive, risky, or impossible. However, CORL inherits the dual difficulty of offline reinforcement learning and adapting while preventing catastrophic forgetting. Replay-based continual learning approaches remain a strong baseline but incur memory overhead and suffer from a distribution mismatch between replayed samples and newly learned policies. At the same time, architectural continual learning methods have shown strong potential in supervised learning but remain underexplored in CORL. In this work, we propose TSN-Affinity, a novel CORL method based on TinySubNetworks and Decision Transformer. The method enables task-specific parameterization and controlled knowledge sharing through a RL-aware reuse strategy that routes tasks according to action compatibility and latent similarity. We evaluate the approach on benchmarks based on Atari games and simulations of manipulation tasks with the Franka Emika Panda robotic arm, covering both discrete and continuous control. Results show strong retention from sparse SubNetworks, with routing further improving multi-task performance. Our findings suggest that similarity-guided architectural reuse is a strong and viable alternative to replay-based strategies in a CORL setting. Our code is available at: https://github.com/anonymized-for-submission123/tsn-affinity.