HarmoDT: Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning

📄 arXiv: 2405.18080v1 📥 PDF

作者: Shengchao Hu, Ziqing Fan, Li Shen, Ya Zhang, Yanfeng Wang, Dacheng Tao

分类: cs.LG

发布日期: 2024-05-28

备注: Published at ICML 2024


💡 一句话要点

HarmoDT:通过和谐参数子空间学习,解决离线多任务强化学习中的策略优化问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 多任务学习 决策Transformer 元学习 参数共享 和谐子空间 策略优化

📋 核心要点

  1. 离线多任务强化学习面临任务差异带来的策略优化挑战,现有方法难以有效共享参数和管理冲突梯度。
  2. HarmoDT通过元学习框架,学习任务特定的参数掩码,从而为每个任务确定最佳的和谐参数子空间。
  3. 实验结果表明,HarmoDT在多个基准测试中表现优异,验证了其在离线多任务强化学习中的有效性。

📝 摘要(中文)

本文提出了一种用于离线多任务强化学习(MTRL)的和谐多任务决策Transformer(HarmoDT)。离线MTRL旨在开发一种适用于各种任务的统一策略,而无需在线环境交互。现有方法通常采用序列建模,利用Transformer架构的可扩展性和参数共享的优势来挖掘任务相似性。然而,任务内容和复杂性的差异给策略制定带来了重大挑战,需要明智的参数共享和冲突梯度管理,以实现最佳策略性能。HarmoDT通过为每个任务识别参数的最佳和谐子空间来解决这个问题。该方法被建模为一个双层优化问题,采用基于梯度的元学习框架。框架的上层致力于学习特定于任务的掩码,以划定和谐子空间,而内层则侧重于更新参数,以提高统一策略的整体性能。在多个基准上的实验评估表明,HarmoDT具有优越性,验证了该方法的有效性。

🔬 方法详解

问题定义:离线多任务强化学习旨在训练一个通用的策略,使其能够适应多个不同的任务,而无需与环境进行在线交互。现有的方法,特别是基于Transformer的决策Transformer,通过参数共享来利用任务之间的相似性。然而,不同任务的内容和复杂性差异很大,导致简单的参数共享策略无法有效地学习到最优策略,并且容易受到冲突梯度的影响,从而降低整体性能。

核心思路:HarmoDT的核心思想是为每个任务找到一个最优的“和谐”参数子空间。这意味着并非所有参数都对所有任务同等重要,某些参数可能对特定任务更关键。通过学习一个任务特定的掩码,HarmoDT能够选择性地激活或禁用某些参数,从而为每个任务定制一个参数子集,使其能够更好地适应任务的特定需求。这种方法允许在共享参数的同时,保持任务之间的独立性,从而避免冲突梯度的问题。

技术框架:HarmoDT采用双层优化框架。上层优化器负责学习任务特定的掩码,该掩码决定了每个任务使用的参数子空间。下层优化器则负责更新共享参数,以提高所有任务的整体性能。这种双层优化过程通过元学习实现,其中上层优化器通过梯度下降来调整掩码,以最大化下层优化器在所有任务上的性能。整个框架基于决策Transformer架构,利用其强大的序列建模能力来处理强化学习任务。

关键创新:HarmoDT的关键创新在于引入了“和谐参数子空间”的概念,并通过元学习框架学习任务特定的掩码来实现参数的精细化共享。与传统的参数共享方法不同,HarmoDT允许模型为每个任务选择性地使用参数,从而更好地适应任务的特定需求。这种方法有效地解决了任务差异带来的策略优化问题,并避免了冲突梯度的影响。

关键设计:HarmoDT的关键设计包括:1) 使用sigmoid函数生成0到1之间的掩码值,控制参数的激活程度;2) 使用基于梯度的元学习算法来优化掩码,使其能够最大化所有任务的性能;3) 使用决策Transformer作为基础架构,利用其强大的序列建模能力;4) 通过实验调整掩码的稀疏性,以平衡参数共享和任务特定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,HarmoDT在多个离线多任务强化学习基准测试中优于现有的方法。例如,在某些任务上,HarmoDT的性能比最佳基线提高了10%以上。这些结果验证了HarmoDT在学习通用策略和适应不同任务方面的有效性,证明了其和谐参数子空间学习策略的优越性。

🎯 应用场景

HarmoDT在机器人控制、游戏AI、自动驾驶等领域具有广泛的应用前景。它可以用于训练能够适应不同环境和任务的通用策略,从而降低开发成本和提高系统的鲁棒性。例如,在机器人控制中,可以使用HarmoDT训练一个能够执行不同操作(如抓取、放置、导航)的机器人;在自动驾驶中,可以使用HarmoDT训练一个能够适应不同驾驶场景(如城市道路、高速公路、乡村道路)的自动驾驶系统。

📄 摘要(原文)

The purpose of offline multi-task reinforcement learning (MTRL) is to develop a unified policy applicable to diverse tasks without the need for online environmental interaction. Recent advancements approach this through sequence modeling, leveraging the Transformer architecture's scalability and the benefits of parameter sharing to exploit task similarities. However, variations in task content and complexity pose significant challenges in policy formulation, necessitating judicious parameter sharing and management of conflicting gradients for optimal policy performance. In this work, we introduce the Harmony Multi-Task Decision Transformer (HarmoDT), a novel solution designed to identify an optimal harmony subspace of parameters for each task. We approach this as a bi-level optimization problem, employing a meta-learning framework that leverages gradient-based techniques. The upper level of this framework is dedicated to learning a task-specific mask that delineates the harmony subspace, while the inner level focuses on updating parameters to enhance the overall performance of the unified policy. Empirical evaluations on a series of benchmarks demonstrate the superiority of HarmoDT, verifying the effectiveness of our approach.