DynaMo: In-Domain Dynamics Pretraining for Visuo-Motor Control

📄 arXiv: 2409.12192v2 📥 PDF

作者: Zichen Jeff Cui, Hengkai Pan, Aadhithya Iyer, Siddhant Haldar, Lerrel Pinto

分类: cs.RO, cs.AI, cs.CV, cs.LG

发布日期: 2024-09-18 (更新: 2024-10-30)


💡 一句话要点

DynaMo:用于视觉运动控制的域内动态预训练方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视觉运动控制 模仿学习 自监督学习 动态模型 域内预训练 机器人学习 视觉表征学习

📋 核心要点

  1. 现有模仿学习方法在处理高维视觉输入时,需要大量专家数据,数据效率低下。
  2. DynaMo通过在域内数据上进行自监督预训练,联合学习逆动力学和前向动力学模型,提升视觉表征质量。
  3. 实验表明,DynaMo显著提升了多种策略在模拟和真实环境中的模仿学习性能,优于现有自监督和预训练方法。

📝 摘要(中文)

模仿学习已被证明是训练复杂视觉运动策略的强大工具。然而,当前的方法通常需要数百到数千个专家演示才能处理高维视觉观察。这种数据效率低下的一个关键原因是,视觉表征主要是在域外数据上进行预训练,或者直接通过行为克隆目标进行训练。本文提出了一种新的域内自监督方法DynaMo,用于学习视觉表征。给定一组专家演示,我们联合学习一个潜在的逆动力学模型和一个前向动力学模型,该模型基于图像嵌入序列预测潜在空间中的下一帧,无需数据增强、对比采样或访问真实动作。重要的是,DynaMo不需要任何域外数据,如互联网数据集或跨具身数据集。在一套六个模拟和真实环境中,我们表明,与之前的自监督学习目标和预训练表征相比,使用DynaMo学习的表征显著提高了下游模仿学习的性能。使用DynaMo带来的增益适用于行为Transformer、扩散策略、MLP和最近邻等策略类别。最后,我们对DynaMo的关键组件进行了消融研究,并衡量了其对下游策略性能的影响。

🔬 方法详解

问题定义:现有的视觉运动控制模仿学习方法,依赖于大量的专家数据,在高维视觉输入下数据效率低下。主要原因是视觉表征学习要么依赖于域外数据预训练,要么直接通过行为克隆目标进行训练,导致学习到的表征与任务相关性较弱。

核心思路:DynaMo的核心思路是在域内数据上进行自监督预训练,通过学习环境的动态模型来提升视觉表征的质量。具体来说,DynaMo联合学习一个潜在的逆动力学模型和一个前向动力学模型,利用专家演示数据,预测潜在空间中的下一帧,从而学习到对环境动态变化敏感的视觉表征。

技术框架:DynaMo的整体框架包含两个主要模块:视觉编码器、动态模型。视觉编码器将原始图像输入编码为低维潜在向量。动态模型包含逆动力学模型和前向动力学模型。逆动力学模型根据当前帧和下一帧的潜在向量预测动作。前向动力学模型根据当前帧的潜在向量和预测的动作,预测下一帧的潜在向量。整个训练过程通过最小化预测的下一帧与实际下一帧之间的差异来进行。

关键创新:DynaMo的关键创新在于其域内自监督预训练的方式,以及联合学习逆动力学和前向动力学模型的设计。与传统的域外预训练方法相比,DynaMo能够更好地利用专家数据中的信息,学习到与任务更相关的视觉表征。与只学习前向动力学模型的方法相比,联合学习逆动力学模型能够提供更强的约束,提升表征的质量。

关键设计:DynaMo的关键设计包括:1) 使用变分自编码器(VAE)作为视觉编码器,学习潜在空间的表征;2) 使用循环神经网络(RNN)作为动态模型,捕捉时间序列上的依赖关系;3) 使用L2损失函数来衡量预测的下一帧与实际下一帧之间的差异;4) 在训练过程中,不使用任何数据增强、对比采样或真实动作。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DynaMo在六个模拟和真实机器人环境中进行了评估,实验结果表明,DynaMo显著提高了下游模仿学习的性能。例如,在使用行为Transformer策略时,DynaMo在多个任务上取得了超过现有自监督学习方法和预训练方法的性能提升。此外,DynaMo的增益在不同的策略类别(如扩散策略、MLP和最近邻)上都保持一致,表明其具有良好的泛化能力。

🎯 应用场景

DynaMo可以广泛应用于机器人视觉运动控制领域,例如机器人操作、自动驾驶等。通过预训练高质量的视觉表征,可以显著降低模仿学习对专家数据的需求,加速机器人在复杂环境中的学习和部署。该方法还可以应用于其他需要从视觉输入中学习动态模型的任务,例如视频预测、动作识别等。

📄 摘要(原文)

Imitation learning has proven to be a powerful tool for training complex visuomotor policies. However, current methods often require hundreds to thousands of expert demonstrations to handle high-dimensional visual observations. A key reason for this poor data efficiency is that visual representations are predominantly either pretrained on out-of-domain data or trained directly through a behavior cloning objective. In this work, we present DynaMo, a new in-domain, self-supervised method for learning visual representations. Given a set of expert demonstrations, we jointly learn a latent inverse dynamics model and a forward dynamics model over a sequence of image embeddings, predicting the next frame in latent space, without augmentations, contrastive sampling, or access to ground truth actions. Importantly, DynaMo does not require any out-of-domain data such as Internet datasets or cross-embodied datasets. On a suite of six simulated and real environments, we show that representations learned with DynaMo significantly improve downstream imitation learning performance over prior self-supervised learning objectives, and pretrained representations. Gains from using DynaMo hold across policy classes such as Behavior Transformer, Diffusion Policy, MLP, and nearest neighbors. Finally, we ablate over key components of DynaMo and measure its impact on downstream policy performance. Robot videos are best viewed at https://dynamo-ssl.github.io