RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation

📄 arXiv: 2509.15212v1 📥 PDF

作者: Yuming Jiang, Siteng Huang, Shengke Xue, Yaxi Zhao, Jun Cen, Sicong Leng, Kehan Li, Jiayan Guo, Kexiang Wang, Mingxiu Chen, Fan Wang, Deli Zhao, Xin Li

分类: cs.CV, cs.RO

发布日期: 2025-09-18

备注: GitHub Project: https://github.com/alibaba-damo-academy/RynnVLA-001


💡 一句话要点

RynnVLA-001:利用人类演示提升机器人操作能力,提出双阶段预训练VLA模型。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 视觉-语言-动作模型 预训练 视频生成 轨迹预测 人类演示 变分自编码器

📋 核心要点

  1. 现有VLA模型在机器人操作任务中面临动作表示复杂和泛化性不足的挑战。
  2. RynnVLA-001通过双阶段预训练,首先学习视频生成,然后学习轨迹预测,从而提升模型对动作的理解。
  3. 实验表明,RynnVLA-001在下游机器人数据集上优于现有方法,证明了预训练策略的有效性。

📝 摘要(中文)

本文提出了RynnVLA-001,一个基于大规模人类演示视频生成预训练的视觉-语言-动作(VLA)模型。我们提出了一种新颖的两阶段预训练方法。第一阶段,以自我为中心的视频生成预训练,在1200万个以自我为中心的操作视频上训练一个图像到视频模型,以预测在初始帧和语言指令条件下的未来帧。第二阶段,以人为中心的轨迹感知建模,通过联合预测未来关键点轨迹来扩展这一方法,从而有效地将视觉帧预测与动作预测联系起来。此外,为了增强动作表示,我们提出了ActionVAE,一个变分自编码器,它将动作序列压缩成紧凑的潜在嵌入,从而降低了VLA输出空间的复杂性。在相同的下游机器人数据集上进行微调时,RynnVLA-001实现了优于最先进基线的性能,表明所提出的预训练策略为VLA模型提供了更有效的初始化。

🔬 方法详解

问题定义:现有VLA模型在机器人操作任务中,难以有效利用人类演示数据,动作空间复杂,导致模型泛化能力不足,难以适应新的任务和环境。如何从大规模人类演示视频中学习有效的视觉-语言-动作表示,是本文要解决的核心问题。

核心思路:本文的核心思路是利用大规模人类演示视频进行预训练,通过两阶段的预训练策略,首先学习视频生成的通用视觉表示,然后学习轨迹预测的动作表示,从而将视觉信息与动作信息有效结合,提升模型的泛化能力。

技术框架:RynnVLA-001的整体框架包含两个主要的预训练阶段:1) Ego-Centric Video Generative Pretraining (以自我为中心的视频生成预训练):使用Image-to-Video模型,基于初始帧和语言指令预测未来帧。2) Human-Centric Trajectory-Aware Modeling (以人为中心的轨迹感知建模):联合预测未来关键点轨迹,将视觉帧预测与动作预测联系起来。此外,还使用了ActionVAE来压缩动作序列。

关键创新:本文的关键创新在于提出了一个两阶段的预训练策略,将视频生成和轨迹预测相结合,从而更有效地学习视觉-语言-动作表示。ActionVAE的使用也降低了动作空间的复杂性。与现有方法相比,本文的方法更侧重于利用人类演示数据来提升模型的泛化能力。

关键设计:在Ego-Centric Video Generative Pretraining阶段,使用了Transformer架构的Image-to-Video模型。在Human-Centric Trajectory-Aware Modeling阶段,关键点轨迹预测使用了回归损失函数。ActionVAE使用了变分自编码器的标准结构,损失函数包括重构损失和KL散度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RynnVLA-001在下游机器人数据集上进行了微调,实验结果表明,该模型优于现有的state-of-the-art基线模型。具体性能提升数据在论文中给出,证明了所提出的预训练策略的有效性,为VLA模型提供了一个更有效的初始化。

🎯 应用场景

该研究成果可应用于各种机器人操作任务,例如家庭服务机器人、工业自动化机器人等。通过学习人类的演示,机器人可以更好地理解任务目标和执行动作,从而提高工作效率和安全性。未来,该技术有望实现更智能、更自主的机器人系统。

📄 摘要(原文)

This paper presents RynnVLA-001, a vision-language-action(VLA) model built upon large-scale video generative pretraining from human demonstrations. We propose a novel two-stage pretraining methodology. The first stage, Ego-Centric Video Generative Pretraining, trains an Image-to-Video model on 12M ego-centric manipulation videos to predict future frames conditioned on an initial frame and a language instruction. The second stage, Human-Centric Trajectory-Aware Modeling, extends this by jointly predicting future keypoint trajectories, thereby effectively bridging visual frame prediction with action prediction. Furthermore, to enhance action representation, we propose ActionVAE, a variational autoencoder that compresses sequences of actions into compact latent embeddings, reducing the complexity of the VLA output space. When finetuned on the same downstream robotics datasets, RynnVLA-001 achieves superior performance over state-of-the-art baselines, demonstrating that the proposed pretraining strategy provides a more effective initialization for VLA models.