Zero-Shot Offline Imitation Learning via Optimal Transport

📄 arXiv: 2410.08751v3 📥 PDF

作者: Thomas Rupf, Marco Bagatella, Nico Gürtler, Jonas Frey, Georg Martius

分类: cs.LG

发布日期: 2024-10-11 (更新: 2025-06-12)

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于最优传输的零样本离线模仿学习方法,解决传统方法短视问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 零样本模仿学习 离线学习 最优传输 占用率匹配 世界模型

📋 核心要点

  1. 现有零样本模仿学习方法易受短视行为影响,即agent为了达成短期目标而损害长期目标。
  2. 论文提出通过优化占用率匹配目标来解决短视问题,利用目标条件价值函数和学习的世界模型。
  3. 实验证明,该方法能够从离线次优数据中学习,并在复杂连续控制任务中实现非短视的零样本模仿。

📝 摘要(中文)

本文提出了一种新颖的零样本离线模仿学习方法,旨在仅通过少量演示数据即可复现未见过的行为。现有方法通常将专家演示视为一系列目标,通过高层目标选择器和低层目标条件策略进行模仿,但容易产生短视行为,即为了实现短期目标而损害长期目标。本文通过直接优化模仿学习固有的占用率匹配目标来缓解此问题。具体而言,论文将目标条件价值函数提升为占用率之间的距离,并通过学习的世界模型来近似占用率。实验结果表明,该方法能够从离线、次优数据中学习,并实现非短视的零样本模仿。

🔬 方法详解

问题定义:现有的零样本模仿学习方法,特别是那些基于目标条件策略的方法,容易陷入短视行为。Agent专注于快速达成一个个短期目标,而忽略了全局的长期目标,导致最终性能不佳。论文旨在解决如何在零样本场景下,避免短视行为,实现更有效的模仿学习。

核心思路:论文的核心思路是直接优化占用率匹配目标。模仿学习的本质是让agent的行为轨迹与专家轨迹的占用率分布尽可能接近。通过直接优化占用率匹配,可以避免agent只关注短期目标,从而缓解短视问题。论文使用最优传输理论来度量占用率之间的距离。

技术框架:整体框架包含以下几个主要模块:1) 离线数据集:包含专家或次优策略产生的数据。2) 世界模型:用于学习环境的动态模型,预测状态转移。3) 目标条件价值函数:估计在给定状态和目标下,agent能够达到的累积奖励。4) 占用率距离计算:利用世界模型和目标条件价值函数,计算agent和专家轨迹的占用率距离,这里使用最优传输来计算距离。5) 策略优化:通过最小化占用率距离来优化agent的策略。

关键创新:最重要的创新点在于将目标条件价值函数提升为占用率之间的距离,并使用最优传输来计算这个距离。这使得agent能够直接优化模仿学习的根本目标,即匹配专家轨迹的占用率分布,从而避免短视行为。与现有方法相比,该方法不再依赖于显式的目标选择或分层策略,而是直接学习如何生成与专家相似的行为轨迹。

关键设计:论文使用神经网络来表示世界模型和目标条件价值函数。世界模型通常采用变分自编码器(VAE)或生成对抗网络(GAN)等生成模型。目标条件价值函数可以使用任何标准的强化学习算法进行训练,例如DQN或SAC。占用率距离的计算涉及到求解一个最优传输问题,可以使用Sinkhorn算法等高效的数值方法。损失函数主要由占用率距离和一些正则化项组成,用于约束世界模型和价值函数的学习。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在多个复杂连续控制任务上进行了实验,结果表明,该方法能够有效地从离线、次优数据中学习,并实现非短视的零样本模仿。与现有方法相比,该方法在性能上取得了显著提升,尤其是在需要长期规划的任务中。代码已开源,方便研究人员复现和进一步研究。

🎯 应用场景

该研究成果可应用于机器人控制、自动驾驶、游戏AI等领域。例如,可以利用少量人类驾驶数据,训练自动驾驶系统,使其能够安全、高效地完成驾驶任务。在机器人控制领域,可以模仿人类专家的操作,使机器人能够完成复杂的装配、操作等任务。该方法在数据获取困难或成本高昂的场景下具有重要价值。

📄 摘要(原文)

Zero-shot imitation learning algorithms hold the promise of reproducing unseen behavior from as little as a single demonstration at test time. Existing practical approaches view the expert demonstration as a sequence of goals, enabling imitation with a high-level goal selector, and a low-level goal-conditioned policy. However, this framework can suffer from myopic behavior: the agent's immediate actions towards achieving individual goals may undermine long-term objectives. We introduce a novel method that mitigates this issue by directly optimizing the occupancy matching objective that is intrinsic to imitation learning. We propose to lift a goal-conditioned value function to a distance between occupancies, which are in turn approximated via a learned world model. The resulting method can learn from offline, suboptimal data, and is capable of non-myopic, zero-shot imitation, as we demonstrate in complex, continuous benchmarks. The code is available at https://github.com/martius-lab/zilot.