Vidar: Embodied Video Diffusion Model for Generalist Manipulation
作者: Yao Feng, Hengkai Tan, Xinyi Mao, Chendong Xiang, Guodong Liu, Shuhe Huang, Hang Su, Jun Zhu
分类: cs.LG, cs.AI, cs.CV, cs.RO
发布日期: 2025-07-17 (更新: 2025-12-20)
💡 一句话要点
Vidar:基于具身视频扩散模型的通用机器人操作框架
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 机器人操作 视频扩散模型 具身智能 迁移学习 逆动力学 通用操作 掩码学习
📋 核心要点
- 现有机器人操作方法难以泛化到新平台,需要大量同质数据,且端到端模型易受背景和视角变化影响。
- Vidar利用预训练的视频扩散模型作为通用先验,并通过掩码逆动力学模型(MIDM)适配到特定机器人。
- 实验表明,Vidar仅需少量数据即可在新机器人上超越现有方法,并能泛化到未见过的任务和环境。
📝 摘要(中文)
本文提出Vidar,一个用于通用操作的具身视频扩散模型,旨在解决将通用操作扩展到新机器人平台上的挑战。Vidar由一个可泛化的先验——具身视频扩散模型和一个适配器——掩码逆动力学模型(MIDM)组成。该模型利用互联网规模预训练的视频扩散模型,并使用来自三个真实机器人平台的750K多视角轨迹进行具身领域的持续预训练。在具身预训练中,引入统一的观察空间,联合编码机器人、相机、任务和场景上下文。MIDM模块学习与动作相关的像素掩码,无需密集标签,将先验知识融入目标平台的动作空间,同时抑制干扰因素。仅需20分钟的人工演示数据(仅为典型数据的1%),Vidar就能超越最先进的基线方法,并泛化到未见过的任务、背景和相机布局。结果表明,这种“一个先验,多个平台”的方案具有可扩展性:强大的、低成本的视频先验知识与最小的机器人对齐。
🔬 方法详解
问题定义:现有机器人操作方法在面对新的机器人平台时,需要大量的特定平台数据进行训练,成本高昂。此外,端到端的像素到动作的pipeline容易受到背景和视角变化的影响,导致性能下降。因此,如何利用已有的通用知识,快速适配到新的机器人平台,是亟待解决的问题。
核心思路:Vidar的核心思路是利用大规模互联网视频数据预训练的视频扩散模型作为通用先验知识,然后通过一个轻量级的掩码逆动力学模型(MIDM)将该先验知识适配到特定的机器人平台。这种方法避免了从头开始训练模型,大大降低了数据需求和训练成本。
技术框架:Vidar包含两个主要模块:具身视频扩散模型和掩码逆动力学模型(MIDM)。首先,使用大规模互联网视频数据和机器人多视角轨迹数据对视频扩散模型进行预训练,使其具备生成高质量视频的能力。然后,MIDM学习从视频中提取与动作相关的像素掩码,并将这些掩码用于预测机器人的动作。整体流程是:输入当前状态的视频,通过视频扩散模型生成未来状态的视频,然后利用MIDM从生成的视频中提取动作相关的像素信息,并预测机器人的动作。
关键创新:Vidar的关键创新在于将大规模预训练的视频扩散模型作为通用先验知识,并利用MIDM进行快速适配。这种方法避免了为每个机器人平台单独训练模型,大大提高了泛化能力和效率。此外,MIDM通过学习像素掩码来关注与动作相关的区域,从而抑制了背景和视角变化的影响。
关键设计:Vidar使用统一的观察空间来编码机器人、相机、任务和场景上下文,从而实现多视角数据的融合。MIDM使用Transformer架构,并采用对比学习的方式来学习像素掩码。损失函数包括视频重建损失、动作预测损失和对比学习损失。具体的参数设置和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
Vidar在未见过的机器人平台上,仅使用20分钟的人工演示数据(仅为典型数据的1%),就超越了最先进的基线方法。实验结果表明,Vidar能够泛化到未见过的任务、背景和相机布局,证明了其强大的泛化能力和高效的迁移学习能力。与现有方法相比,Vidar大大降低了数据需求和训练成本。
🎯 应用场景
Vidar具有广泛的应用前景,可用于各种机器人操作任务,如家庭服务、工业自动化、医疗辅助等。通过利用大规模预训练的视频扩散模型,Vidar可以快速部署到新的机器人平台,降低开发成本,提高机器人操作的智能化水平。未来,Vidar有望成为通用机器人操作系统的核心组成部分。
📄 摘要(原文)
Scaling general-purpose manipulation to new robot embodiments remains challenging: each platform typically needs large, homogeneous demonstrations, and end-to-end pixel-to-action pipelines may degenerate under background and viewpoint shifts. Based on previous advances in video-based robot control, we present Vidar, consisting of an embodied video diffusion model as the generalizable prior and a masked inverse dynamics model (MIDM) as the adapter. We leverage a video diffusion model pre-trained at Internet scale, and further continuously pre-train it for the embodied domain using 750K multi-view trajectories collected from three real-world robot platforms. For this embodied pre-training, we introduce a unified observation space that jointly encodes robot, camera, task, and scene contexts. The MIDM module learns action-relevant pixel masks without dense labels, grounding the prior into the target embodiment's action space while suppressing distractors. With only 20 minutes of human demonstrations on an unseen robot (1% of typical data), Vidar outperforms state-of-the-art baselines and generalizes to unseen tasks, backgrounds, and camera layouts. Our results suggest a scalable recipe for "one prior, many embodiments": strong, inexpensive video priors together with minimal on-robot alignment.