Learning to Act without Actions

📄 arXiv: 2312.10812v2 📥 PDF

作者: Dominik Schmidt, Minqi Jiang

分类: cs.LG, cs.AI

发布日期: 2023-12-17 (更新: 2024-03-27)

备注: Accepted at ICLR 2024 (spotlight). The code can be found at http://github.com/schmidtdominik/LAPO


💡 一句话要点

提出LAPO,仅从视频中学习潜在动作策略,实现无动作强化学习

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 无监督学习 强化学习 模仿学习 潜在动作空间 世界模型 视频预训练 行为策略

📋 核心要点

  1. 现有强化学习方法依赖于带动作标签的演示数据,限制了其在海量无标签视频数据上的应用。
  2. LAPO通过学习潜在动作空间,仅从视频中恢复动作信息,从而训练策略和世界模型。
  3. 实验表明,LAPO能够学习到专家级策略,并能快速微调适应新任务,具有良好的泛化能力。

📝 摘要(中文)

本文提出了一种名为潜在动作策略(LAPO)的方法,旨在仅从视频中恢复潜在的动作信息,从而学习潜在动作策略、世界模型和逆动力学模型。现有的模仿学习方法需要动作标签,而网络上大量的具身行为视频数据缺乏这些标签。LAPO是第一个能够仅从观察到的动态中恢复真实动作空间结构的方法,即使在具有挑战性的程序生成环境中也是如此。LAPO能够训练潜在动作策略,这些策略可以快速微调为专家级策略,既可以离线使用少量带动作标签的数据集,也可以在线使用奖励。LAPO朝着在网络上大量可用的视频上预训练强大的、通用的策略和世界模型迈出了第一步。

🔬 方法详解

问题定义:现有模仿学习方法需要带动作标签的视频数据,这限制了它们在海量无标签网络视频上的应用。如何仅从无标签视频中学习有效的行为策略是一个关键问题。现有方法的痛点在于无法从观察到的状态转移中推断出潜在的动作信息。

核心思路:LAPO的核心思路是通过学习一个潜在的动作空间,将观察到的状态转移与潜在动作关联起来。通过这种方式,即使没有显式的动作标签,也可以从视频中学习到策略、世界模型和逆动力学模型。这种方法的核心在于假设动作空间存在某种结构,可以通过学习来恢复。

技术框架:LAPO的整体框架包含以下几个主要模块:1) 视频编码器:将视频帧编码成状态表示。2) 潜在动作编码器:学习一个潜在的动作空间,将状态转移编码成潜在动作。3) 世界模型:预测给定状态和潜在动作下的下一个状态。4) 逆动力学模型:预测给定当前状态和下一个状态的潜在动作。整个框架通过最小化世界模型的预测误差和逆动力学模型的预测误差进行训练。

关键创新:LAPO最重要的技术创新点在于它能够仅从观察到的动态中恢复真实动作空间的结构。与现有方法不同,LAPO不需要任何动作标签,而是通过学习潜在动作空间来实现行为模仿。这种方法使得可以利用海量的无标签视频数据进行策略学习。

关键设计:LAPO的关键设计包括:1) 使用变分自编码器(VAE)学习潜在动作空间,鼓励潜在动作空间的平滑性和可解释性。2) 使用对比学习来区分不同的状态转移,从而更好地学习潜在动作表示。3) 使用Transformer网络来建模状态和动作之间的长期依赖关系。损失函数包括世界模型的预测误差、逆动力学模型的预测误差以及VAE的KL散度损失。

📊 实验亮点

LAPO在多个程序生成环境中进行了评估,包括Carla和DMLab。实验结果表明,LAPO能够学习到专家级策略,并且能够快速微调适应新任务。例如,在Carla环境中,LAPO能够学习到复杂的驾驶行为,例如避障和车道保持。与现有方法相比,LAPO在无标签数据上的学习效率更高,并且具有更好的泛化能力。

🎯 应用场景

LAPO具有广泛的应用前景,例如机器人控制、游戏AI和自动驾驶。通过在大量网络视频上进行预训练,LAPO可以学习到通用的行为策略和世界模型,从而加速机器人在新环境中的学习和适应。此外,LAPO还可以用于分析人类行为,例如学习人类的运动模式和决策过程。

📄 摘要(原文)

Pre-training large models on vast amounts of web data has proven to be an effective approach for obtaining powerful, general models in domains such as language and vision. However, this paradigm has not yet taken hold in reinforcement learning. This is because videos, the most abundant form of embodied behavioral data on the web, lack the action labels required by existing methods for imitating behavior from demonstrations. We introduce Latent Action Policies (LAPO), a method for recovering latent action information, and thereby latent-action policies, world models, and inverse dynamics models, purely from videos. LAPO is the first method able to recover the structure of the true action space just from observed dynamics, even in challenging procedurally-generated environments. LAPO enables training latent-action policies that can be rapidly fine-tuned into expert-level policies, either offline using a small action-labeled dataset, or online with rewards. LAPO takes a first step towards pre-training powerful, generalist policies and world models on the vast amounts of videos readily available on the web.