Latent Action Pretraining from Videos

作者: Seonghyeon Ye, Joel Jang, Byeongguk Jeon, Sejune Joo, Jianwei Yang, Baolin Peng, Ajay Mandlekar, Reuben Tan, Yu-Wei Chao, Bill Yuchen Lin, Lars Liden, Kimin Lee, Jianfeng Gao, Luke Zettlemoyer, Dieter Fox, Minjoon Seo

分类: cs.RO, cs.CL, cs.CV, cs.LG

发布日期: 2024-10-15 (更新: 2025-05-15)

备注: ICLR 2025 Website: https://latentactionpretraining.github.io

💡 一句话要点

提出LAPA：一种基于视频潜在动作预训练的通用动作模型，无需人工标注。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱四：生成式动作 (Generative Motion) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 无监督预训练 潜在动作学习 机器人操作 视频理解

📋 核心要点

现有VLA模型依赖人工标注的机器人动作数据，限制了数据规模和泛化能力。
LAPA通过学习视频帧间的潜在动作，预训练VLA模型，无需人工标注动作标签。
实验表明，LAPA在真实机器人操作任务中，超越了现有方法，并展现了良好的泛化能力。

📝 摘要（中文）

本文介绍了一种用于通用动作模型的潜在动作预训练方法（LAPA）。LAPA是一种无监督方法，用于预训练视觉-语言-动作（VLA）模型，无需人工标注的机器人动作标签。现有的VLA模型通常需要人类遥操作员收集动作标签进行预训练，这极大地限制了可能的数据来源和规模。本文提出了一种从不包含机器人动作标签的互联网规模视频中学习的方法。首先，利用基于VQ-VAE的目标训练一个动作量化模型，以学习图像帧之间的离散潜在动作；然后，预训练一个潜在VLA模型，以从观察和任务描述中预测这些潜在动作；最后，在小规模机器人操作数据上微调VLA，以从潜在动作映射到机器人动作。实验结果表明，该方法显著优于现有的从大规模视频中训练机器人操作策略的技术。此外，在需要语言条件、推广到未见过的物体以及语义推广到未见过的指令的真实操作任务中，该方法优于使用机器人动作标签训练的state-of-the-art VLA模型。仅在人类操作视频上训练也显示出积极的迁移，为利用网络规模数据构建机器人基础模型开辟了潜力。

🔬 方法详解

问题定义：现有视觉-语言-动作（VLA）模型依赖于人工标注的机器人动作数据进行预训练，这限制了数据规模，并且标注成本高昂。如何利用大规模无标注视频数据进行VLA模型的预训练，是本文要解决的核心问题。现有方法难以有效利用这些数据，导致模型泛化能力受限。

核心思路：本文的核心思路是学习视频帧之间的潜在动作表示，并利用这些潜在动作作为VLA模型的预训练目标。通过这种方式，模型可以从大规模无标注视频中学习到丰富的动作先验知识，从而提高在真实机器人操作任务中的性能。这种方法避免了对机器人动作进行显式标注的需求。

技术框架：LAPA的整体框架包含三个主要阶段：1) 动作量化模型训练：使用VQ-VAE学习视频帧之间的离散潜在动作表示。2) 潜在VLA模型预训练：预训练VLA模型，使其能够根据观察和任务描述预测潜在动作。3) VLA模型微调：在小规模机器人操作数据上微调VLA模型，将潜在动作映射到具体的机器人动作。

关键创新：LAPA的关键创新在于利用潜在动作表示作为VLA模型的预训练目标，从而实现了从大规模无标注视频中学习。与现有方法相比，LAPA无需人工标注动作标签，可以利用互联网上丰富的视频资源。此外，LAPA通过学习潜在动作，可以提高模型的泛化能力，使其能够处理未见过的物体和指令。

关键设计：动作量化模型基于VQ-VAE，用于学习离散的潜在动作表示。VLA模型采用Transformer架构，用于建模视觉、语言和动作之间的关系。损失函数包括VQ-VAE的重构损失和码本损失，以及VLA模型的交叉熵损失。在微调阶段，使用机器人动作的监督损失。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LAPA在真实机器人操作任务中显著优于现有方法。例如，在需要语言条件、推广到未见过的物体以及语义推广到未见过的指令的任务中，LAPA超越了使用机器人动作标签训练的state-of-the-art VLA模型。此外，仅在人类操作视频上训练也显示出积极的迁移效果。

🎯 应用场景

LAPA具有广泛的应用前景，可用于机器人操作、自动驾驶、智能助手等领域。通过利用大规模无标注视频数据，LAPA可以显著降低模型训练成本，提高模型的泛化能力。未来，LAPA有望成为机器人基础模型的重要组成部分，推动机器人技术的快速发展。

📄 摘要（原文）

We introduce Latent Action Pretraining for general Action models (LAPA), an unsupervised method for pretraining Vision-Language-Action (VLA) models without ground-truth robot action labels. Existing Vision-Language-Action models require action labels typically collected by human teleoperators during pretraining, which significantly limits possible data sources and scale. In this work, we propose a method to learn from internet-scale videos that do not have robot action labels. We first train an action quantization model leveraging VQ-VAE-based objective to learn discrete latent actions between image frames, then pretrain a latent VLA model to predict these latent actions from observations and task descriptions, and finally finetune the VLA on small-scale robot manipulation data to map from latent to robot actions. Experimental results demonstrate that our method significantly outperforms existing techniques that train robot manipulation policies from large-scale videos. Furthermore, it outperforms the state-of-the-art VLA model trained with robotic action labels on real-world manipulation tasks that require language conditioning, generalization to unseen objects, and semantic generalization to unseen instructions. Training only on human manipulation videos also shows positive transfer, opening up the potential for leveraging web-scale data for robotics foundation model.

Latent Action Pretraining from Videos

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理