GO-DICE: Goal-Conditioned Option-Aware Offline Imitation Learning via Stationary Distribution Correction Estimation
作者: Abhinav Jain, Vaibhav Unhelkar
分类: cs.LG, cs.AI
发布日期: 2023-12-17
备注: Extended version of an identically-titled paper accepted at AAAI 2024
💡 一句话要点
GO-DICE:基于稳态分布校正估计的目标条件选项感知离线模仿学习
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 离线模仿学习 分层强化学习 目标条件学习 稳态分布校正 长时序任务
📋 核心要点
- 现有离线模仿学习技术难以处理长时序任务,且当任务目标改变时,需要大量重新训练。
- GO-DICE通过学习子任务层级结构,分别学习子任务转移和动作执行策略,实现长时序推理和目标条件学习。
- 实验表明,GO-DICE在机器人抓取放置任务中显著优于现有方法,并能有效利用不完美演示数据。
📝 摘要(中文)
本文提出了一种名为GO-DICE的离线模仿学习技术,用于解决目标条件下的长时序任务。GO-DICE从演示数据中学习子任务的层级结构,并分别学习子任务转移策略和动作执行策略,从而实现长时序推理。受DICE系列方法的启发,策略学习在稳态分布空间中进行。此外,两种策略都采用目标条件学习,以减少任务目标变化时所需的重新训练。实验结果表明,GO-DICE优于现有基线方法,在难度递增的Mujoco机器人抓取放置任务中,完成率显著提高。GO-DICE还能够利用不完美的演示和部分任务分割信息,相对于仅从专家演示中学习,这两种方式都能提升任务性能。
🔬 方法详解
问题定义:离线模仿学习旨在仅从专家演示数据中学习策略,而无需与环境交互。现有方法在处理长时序任务时面临挑战,并且当任务目标发生变化时,需要进行大量的重新训练。这限制了它们在复杂和动态环境中的应用。
核心思路:GO-DICE的核心思路是将长时序任务分解为一系列子任务,并学习一个分层策略,该策略包含一个用于子任务转移的策略和一个用于执行子任务的策略。通过这种方式,可以更容易地学习长时序依赖关系,并且可以通过目标条件学习来适应不同的任务目标。
技术框架:GO-DICE的技术框架包含以下几个主要模块:1) 子任务分割:从专家演示数据中识别子任务的边界。2) 子任务转移策略学习:学习一个策略,用于选择下一个要执行的子任务,该策略以当前状态和目标为条件。3) 动作执行策略学习:学习一个策略,用于在给定当前状态和子任务的情况下,执行具体的动作。这两个策略的学习都基于DICE框架,在稳态分布空间中进行。
关键创新:GO-DICE的关键创新在于将分层策略学习与DICE框架相结合,从而能够在离线环境中学习长时序任务的策略。此外,通过目标条件学习,GO-DICE可以适应不同的任务目标,而无需进行大量的重新训练。利用稳态分布校正估计,可以更有效地利用离线数据进行策略学习。
关键设计:GO-DICE使用神经网络来表示子任务转移策略和动作执行策略。损失函数基于DICE框架,旨在最小化策略的稳态分布与专家演示数据的稳态分布之间的差异。子任务分割可以通过人工标注或自动聚类等方法实现。具体网络结构和超参数的选择需要根据具体任务进行调整。
📊 实验亮点
实验结果表明,GO-DICE在Mujoco机器人抓取放置任务中,相对于现有基线方法,完成率有显著提高。例如,在难度最高的任务中,GO-DICE的完成率比表现最佳的基线方法高出15%以上。此外,GO-DICE还能够有效利用不完美的演示数据和部分任务分割信息,进一步提升任务性能。
🎯 应用场景
GO-DICE可应用于机器人操作、自动驾驶、游戏AI等领域。例如,在机器人操作中,可以利用GO-DICE学习复杂的装配任务;在自动驾驶中,可以学习车辆在复杂交通环境中的驾驶策略;在游戏AI中,可以学习智能体完成复杂的游戏目标。该方法能够降低对大量在线交互数据的依赖,提高学习效率和泛化能力。
📄 摘要(原文)
Offline imitation learning (IL) refers to learning expert behavior solely from demonstrations, without any additional interaction with the environment. Despite significant advances in offline IL, existing techniques find it challenging to learn policies for long-horizon tasks and require significant re-training when task specifications change. Towards addressing these limitations, we present GO-DICE an offline IL technique for goal-conditioned long-horizon sequential tasks. GO-DICE discerns a hierarchy of sub-tasks from demonstrations and uses these to learn separate policies for sub-task transitions and action execution, respectively; this hierarchical policy learning facilitates long-horizon reasoning. Inspired by the expansive DICE-family of techniques, policy learning at both the levels transpires within the space of stationary distributions. Further, both policies are learnt with goal conditioning to minimize need for retraining when task goals change. Experimental results substantiate that GO-DICE outperforms recent baselines, as evidenced by a marked improvement in the completion rate of increasingly challenging pick-and-place Mujoco robotic tasks. GO-DICE is also capable of leveraging imperfect demonstration and partial task segmentation when available, both of which boost task performance relative to learning from expert demonstrations alone.