RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation

作者: Yuming Jiang, Siteng Huang, Shengke Xue, Yaxi Zhao, Jun Cen, Sicong Leng, Kehan Li, Jiayan Guo, Kexiang Wang, Mingxiu Chen, Fan Wang, Deli Zhao, Xin Li

分类: cs.CV, cs.RO

发布日期: 2025-09-18

备注: GitHub Project: https://github.com/alibaba-damo-academy/RynnVLA-001

💡 一句话要点

RynnVLA-001：利用人类演示提升机器人操作能力，提出双阶段预训练VLA模型。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 视觉-语言-动作模型 预训练 视频生成 轨迹预测 人类演示 变分自编码器

📋 核心要点

现有VLA模型在机器人操作任务中面临动作表示复杂和泛化性不足的挑战。
RynnVLA-001通过双阶段预训练，首先学习视频生成，然后学习轨迹预测，从而提升模型对动作的理解。
实验表明，RynnVLA-001在下游机器人数据集上优于现有方法，证明了预训练策略的有效性。

📝 摘要（中文）

本文提出了RynnVLA-001，一个基于大规模人类演示视频生成预训练的视觉-语言-动作(VLA)模型。我们提出了一种新颖的两阶段预训练方法。第一阶段，以自我为中心的视频生成预训练，在1200万个以自我为中心的操作视频上训练一个图像到视频模型，以预测在初始帧和语言指令条件下的未来帧。第二阶段，以人为中心的轨迹感知建模，通过联合预测未来关键点轨迹来扩展这一方法，从而有效地将视觉帧预测与动作预测联系起来。此外，为了增强动作表示，我们提出了ActionVAE，一个变分自编码器，它将动作序列压缩成紧凑的潜在嵌入，从而降低了VLA输出空间的复杂性。在相同的下游机器人数据集上进行微调时，RynnVLA-001实现了优于最先进基线的性能，表明所提出的预训练策略为VLA模型提供了更有效的初始化。

🔬 方法详解

问题定义：现有VLA模型在机器人操作任务中，难以有效利用人类演示数据，动作空间复杂，导致模型泛化能力不足，难以适应新的任务和环境。如何从大规模人类演示视频中学习有效的视觉-语言-动作表示，是本文要解决的核心问题。

核心思路：本文的核心思路是利用大规模人类演示视频进行预训练，通过两阶段的预训练策略，首先学习视频生成的通用视觉表示，然后学习轨迹预测的动作表示，从而将视觉信息与动作信息有效结合，提升模型的泛化能力。

技术框架：RynnVLA-001的整体框架包含两个主要的预训练阶段：1) Ego-Centric Video Generative Pretraining (以自我为中心的视频生成预训练)：使用Image-to-Video模型，基于初始帧和语言指令预测未来帧。2) Human-Centric Trajectory-Aware Modeling (以人为中心的轨迹感知建模)：联合预测未来关键点轨迹，将视觉帧预测与动作预测联系起来。此外，还使用了ActionVAE来压缩动作序列。

关键创新：本文的关键创新在于提出了一个两阶段的预训练策略，将视频生成和轨迹预测相结合，从而更有效地学习视觉-语言-动作表示。ActionVAE的使用也降低了动作空间的复杂性。与现有方法相比，本文的方法更侧重于利用人类演示数据来提升模型的泛化能力。

关键设计：在Ego-Centric Video Generative Pretraining阶段，使用了Transformer架构的Image-to-Video模型。在Human-Centric Trajectory-Aware Modeling阶段，关键点轨迹预测使用了回归损失函数。ActionVAE使用了变分自编码器的标准结构，损失函数包括重构损失和KL散度。

🖼️ 关键图片

📊 实验亮点

RynnVLA-001在下游机器人数据集上进行了微调，实验结果表明，该模型优于现有的state-of-the-art基线模型。具体性能提升数据在论文中给出，证明了所提出的预训练策略的有效性，为VLA模型提供了一个更有效的初始化。

🎯 应用场景

该研究成果可应用于各种机器人操作任务，例如家庭服务机器人、工业自动化机器人等。通过学习人类的演示，机器人可以更好地理解任务目标和执行动作，从而提高工作效率和安全性。未来，该技术有望实现更智能、更自主的机器人系统。

📄 摘要（原文）

This paper presents RynnVLA-001, a vision-language-action(VLA) model built upon large-scale video generative pretraining from human demonstrations. We propose a novel two-stage pretraining methodology. The first stage, Ego-Centric Video Generative Pretraining, trains an Image-to-Video model on 12M ego-centric manipulation videos to predict future frames conditioned on an initial frame and a language instruction. The second stage, Human-Centric Trajectory-Aware Modeling, extends this by jointly predicting future keypoint trajectories, thereby effectively bridging visual frame prediction with action prediction. Furthermore, to enhance action representation, we propose ActionVAE, a variational autoencoder that compresses sequences of actions into compact latent embeddings, reducing the complexity of the VLA output space. When finetuned on the same downstream robotics datasets, RynnVLA-001 achieves superior performance over state-of-the-art baselines, demonstrating that the proposed pretraining strategy provides a more effective initialization for VLA models.

RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理