Semi-Supervised One-Shot Imitation Learning

📄 arXiv: 2408.05285v1 📥 PDF

作者: Philipp Wu, Kourosh Hakhamaneshi, Yuqing Du, Igor Mordatch, Aravind Rajeswaran, Pieter Abbeel

分类: cs.LG, cs.AI

发布日期: 2024-08-09

期刊: Reinforcement Learning Journal 1 (2024)


💡 一句话要点

提出半监督单样本模仿学习,提升AI智能体在少量配对数据下的任务学习能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 单样本模仿学习 半监督学习 任务嵌入 自配对数据生成 机器人控制

📋 核心要点

  1. 传统单样本模仿学习依赖大量配对的专家演示,获取成本高昂,限制了其应用。
  2. 本文提出半监督单样本模仿学习,利用大量无标签轨迹数据辅助少量配对数据进行学习。
  3. 通过学习任务嵌入空间并自生成配对数据,显著提升了单样本模仿学习的标签效率。

📝 摘要(中文)

本文提出半监督单样本模仿学习(Semi-Supervised One-Shot Imitation Learning, OSIL)问题设定,旨在提升AI智能体仅通过少量演示学习新任务的能力。传统的OSIL方法需要大量配对的专家演示数据,成本高昂。为解决此问题,本文引入包含大量无任务标签轨迹的非配对数据集,以及少量包含每个语义任务多个演示的配对数据集。该设定更贴近实际应用,要求智能体有效利用非配对数据集中的弱监督信息。本文提出一种适用于该设定的算法,首先学习一个能够区分不同任务的嵌入空间,然后利用该嵌入空间自生成非配对数据集中的轨迹配对。实验结果表明,基于自生成配对数据训练的OSIL模型性能可与使用真实标签训练的模型媲美,显著提升了OSIL的标签效率。

🔬 方法详解

问题定义:论文旨在解决单样本模仿学习(OSIL)中对大量配对专家演示数据的依赖问题。现有OSIL方法需要大量的配对数据来监督学习,这在实际应用中往往难以满足,因为获取不同任务变体的轨迹数据成本很高。因此,如何利用少量配对数据和大量未标记数据进行有效的模仿学习是本研究要解决的核心问题。

核心思路:论文的核心思路是利用半监督学习的思想,通过学习一个任务嵌入空间,将不同的任务聚类,然后利用这个嵌入空间来自动生成大量未标记轨迹的配对关系。这样,就可以利用这些自生成的配对数据来训练OSIL模型,从而减少对人工标注数据的依赖。

技术框架:整体框架包含两个主要阶段:1) 任务嵌入学习阶段:利用少量配对数据学习一个任务嵌入空间,使得相同任务的轨迹在嵌入空间中聚集在一起,不同任务的轨迹彼此分离。2) 自配对数据生成与模仿学习阶段:利用学习到的任务嵌入空间,为大量未标记的轨迹数据自动生成配对关系,然后使用这些自配对的数据来训练OSIL模型。

关键创新:最重要的创新点在于提出了利用任务嵌入空间自生成配对数据的方法。与传统的监督学习方法不同,该方法不需要人工标注大量的配对数据,而是通过学习到的嵌入空间来自动发现数据之间的关系。这大大降低了对人工标注数据的依赖,提高了OSIL的标签效率。

关键设计:在任务嵌入学习阶段,可以使用对比学习或度量学习等方法来训练嵌入模型。损失函数的设计需要保证相同任务的轨迹在嵌入空间中距离较近,不同任务的轨迹距离较远。在自配对数据生成阶段,可以使用聚类算法或最近邻搜索等方法来为未标记的轨迹数据找到相似的轨迹,并将它们配对。OSIL模型可以使用各种模仿学习算法,例如行为克隆、逆强化学习等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在模拟控制任务中,使用自生成配对数据训练的OSIL模型性能与使用真实标签训练的模型相当,甚至在某些任务上表现更好。这表明该方法能够有效地利用未标记数据,显著提升OSIL的标签效率。例如,在特定任务上,使用自生成配对数据训练的模型达到了与使用100%真实标签数据训练的模型相近的性能。

🎯 应用场景

该研究成果可应用于机器人控制、自动驾驶、游戏AI等领域。例如,机器人可以通过观看一次人类演示,并结合大量未标记的自身探索数据,快速学习新的操作技能。在自动驾驶领域,可以利用少量人工驾驶数据和大量车辆行驶数据,提升自动驾驶系统的泛化能力和安全性。该方法降低了对人工标注数据的依赖,使得AI系统能够更高效地学习和适应新任务。

📄 摘要(原文)

One-shot Imitation Learning~(OSIL) aims to imbue AI agents with the ability to learn a new task from a single demonstration. To supervise the learning, OSIL typically requires a prohibitively large number of paired expert demonstrations -- i.e. trajectories corresponding to different variations of the same semantic task. To overcome this limitation, we introduce the semi-supervised OSIL problem setting, where the learning agent is presented with a large dataset of trajectories with no task labels (i.e. an unpaired dataset), along with a small dataset of multiple demonstrations per semantic task (i.e. a paired dataset). This presents a more realistic and practical embodiment of few-shot learning and requires the agent to effectively leverage weak supervision from a large dataset of trajectories. Subsequently, we develop an algorithm specifically applicable to this semi-supervised OSIL setting. Our approach first learns an embedding space where different tasks cluster uniquely. We utilize this embedding space and the clustering it supports to self-generate pairings between trajectories in the large unpaired dataset. Through empirical results on simulated control tasks, we demonstrate that OSIL models trained on such self-generated pairings are competitive with OSIL models trained with ground-truth labels, presenting a major advancement in the label-efficiency of OSIL.