RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation

📄 arXiv: 2509.15212v1 📥 PDF

作者: Yuming Jiang, Siteng Huang, Shengke Xue, Yaxi Zhao, Jun Cen, Sicong Leng, Kehan Li, Jiayan Guo, Kexiang Wang, Mingxiu Chen, Fan Wang, Deli Zhao, Xin Li

分类: cs.CV, cs.RO

发布日期: 2025-09-18

备注: GitHub Project: https://github.com/alibaba-damo-academy/RynnVLA-001


💡 一句话要点

RynnVLA-001:利用人类演示提升机器人操作能力,提出双阶段预训练VLA模型。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 视觉语言动作模型 视频生成 预训练 人类演示学习 轨迹预测 变分自编码器

📋 核心要点

  1. 现有VLA模型在机器人操作任务中面临动作表示复杂和泛化性不足的挑战。
  2. RynnVLA-001通过双阶段预训练,结合视频生成和轨迹预测,提升模型对动作的理解和预测能力。
  3. 实验表明,RynnVLA-001在下游机器人数据集上优于现有方法,验证了预训练策略的有效性。

📝 摘要(中文)

本文介绍了RynnVLA-001,一个基于大规模人类演示视频生成预训练的视觉-语言-动作(VLA)模型。我们提出了一种新颖的两阶段预训练方法。第一阶段,以自我为中心的视频生成预训练,在1200万个以自我为中心的操作视频上训练一个图像到视频模型,以预测在初始帧和语言指令条件下的未来帧。第二阶段,以人为中心的轨迹感知建模,通过联合预测未来关键点轨迹来扩展这一方法,从而有效地将视觉帧预测与动作预测联系起来。此外,为了增强动作表示,我们提出了ActionVAE,一个变分自编码器,它将动作序列压缩成紧凑的潜在嵌入,从而降低了VLA输出空间的复杂性。在相同的下游机器人数据集上进行微调时,RynnVLA-001实现了优于最先进基线的性能,表明所提出的预训练策略为VLA模型提供了更有效的初始化。

🔬 方法详解

问题定义:现有VLA模型在机器人操作任务中,难以有效利用人类演示数据进行学习,尤其是在动作表示和泛化能力方面存在瓶颈。直接从像素空间预测动作复杂且效率低下,难以适应不同的操作场景。

核心思路:本文的核心思路是利用大规模人类演示视频进行预训练,学习视觉、语言和动作之间的关联。通过两阶段预训练,首先学习从图像和语言到未来视频帧的生成,然后学习关键点轨迹的预测,从而将视觉信息与动作信息有效桥接。ActionVAE的引入进一步压缩动作空间,降低学习难度。

技术框架:RynnVLA-001的整体框架包含两个主要的预训练阶段:1) Ego-Centric Video Generative Pretraining:训练一个Image-to-Video模型,输入为初始帧和语言指令,输出为预测的未来帧。2) Human-Centric Trajectory-Aware Modeling:在第一阶段的基础上,联合预测未来关键点轨迹。此外,还包含一个ActionVAE模块,用于将动作序列压缩成紧凑的潜在嵌入。

关键创新:主要的创新点在于:1) 提出了双阶段预训练方法,有效结合了视频生成和轨迹预测,提升了VLA模型的性能。2) 引入了ActionVAE,通过变分自编码器压缩动作空间,降低了学习的复杂性。3) 利用大规模以自我为中心的人类演示视频进行预训练,使得模型能够更好地学习人类的操作行为。

关键设计:Ego-Centric Video Generative Pretraining阶段使用Transformer架构进行视频生成,损失函数包括像素级别的重建损失和对抗损失。Human-Centric Trajectory-Aware Modeling阶段,关键点轨迹预测采用回归损失。ActionVAE使用标准的变分自编码器结构,损失函数包括重建损失和KL散度损失。具体参数设置和网络结构细节未在摘要中详细描述,需要参考论文全文。

📊 实验亮点

RynnVLA-001在下游机器人数据集上进行了微调,并与最先进的基线方法进行了比较。实验结果表明,RynnVLA-001取得了显著的性能提升,证明了所提出的预训练策略的有效性。具体的性能数据和提升幅度需要在论文全文中查找。

🎯 应用场景

该研究成果可应用于各种机器人操作任务,例如家庭服务机器人、工业自动化机器人等。通过学习人类的演示,机器人可以更好地理解任务指令,并执行复杂的动作。该研究还有助于提升机器人的泛化能力,使其能够适应不同的环境和任务。

📄 摘要(原文)

This paper presents RynnVLA-001, a vision-language-action(VLA) model built upon large-scale video generative pretraining from human demonstrations. We propose a novel two-stage pretraining methodology. The first stage, Ego-Centric Video Generative Pretraining, trains an Image-to-Video model on 12M ego-centric manipulation videos to predict future frames conditioned on an initial frame and a language instruction. The second stage, Human-Centric Trajectory-Aware Modeling, extends this by jointly predicting future keypoint trajectories, thereby effectively bridging visual frame prediction with action prediction. Furthermore, to enhance action representation, we propose ActionVAE, a variational autoencoder that compresses sequences of actions into compact latent embeddings, reducing the complexity of the VLA output space. When finetuned on the same downstream robotics datasets, RynnVLA-001 achieves superior performance over state-of-the-art baselines, demonstrating that the proposed pretraining strategy provides a more effective initialization for VLA models.