Multi-View Video Diffusion Policy: A 3D Spatio-Temporal-Aware Video Action Model

作者: Peiyan Li, Yixiang Chen, Yuan Xu, Jiabing Yang, Xiangnan Wu, Jun Guo, Nan Sun, Long Qian, Xinghang Li, Xin Xiao, Jing Liu, Nianfeng Liu, Tao Kong, Yan Huang, Liang Wang, Tieniu Tan

分类: cs.RO, cs.CV

发布日期: 2026-04-06

💡 一句话要点

提出MV-VDP多视角视频扩散策略，用于数据高效的3D时空感知机器人操作。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 机器人操作 多视角视频 扩散模型 3D时空建模 数据高效 视频预测 强化学习

📋 核心要点

现有机器人操作策略通常依赖2D视觉信息，缺乏对环境3D空间结构和时间演变的理解，导致数据需求高且泛化能力有限。
MV-VDP通过同时预测多视角热图视频和RGB视频，联合建模环境的3D时空状态，从而对齐视频预训练和动作微调。
实验表明，MV-VDP在数据效率、鲁棒性和泛化性方面均优于现有方法，仅需少量演示即可完成复杂任务。

📝 摘要（中文）

本文提出了一种多视角视频扩散策略（MV-VDP），用于联合建模环境的3D时空状态，以解决现有机器人操作策略忽略环境3D空间结构和时间演变的问题。MV-VDP同时预测多视角热图视频和RGB视频，从而将视频预训练的表示格式与动作微调对齐，并明确机器人应采取的动作以及环境对这些动作的预期响应。实验表明，MV-VDP实现了数据高效、鲁棒、可泛化和可解释的操作。仅使用十个演示轨迹，无需额外预训练，MV-VDP就能成功执行复杂的真实世界任务，并在各种模型超参数中表现出强大的鲁棒性，泛化到分布外设置，并预测逼真的未来视频。在Meta-World和真实机器人平台上的实验表明，MV-VDP始终优于基于视频预测、基于3D和视觉-语言-动作的模型，从而在数据高效的多任务操作中建立了新的技术水平。

🔬 方法详解

问题定义：现有机器人操作策略主要依赖于2D视觉信息，忽略了环境的3D空间结构和时间演变，导致数据需求量大，泛化能力受限。此外，现有方法通常使用在静态图像-文本对上预训练的骨干网络，难以有效理解环境的动态变化。

核心思路：MV-VDP的核心思路是联合建模环境的3D时空状态。通过同时预测多视角热图视频和RGB视频，该方法不仅指定了机器人应该采取的动作，还预测了环境对这些动作的预期响应。这种方式将视频预训练的表示格式与动作微调对齐，从而提高了数据效率和泛化能力。

技术框架：MV-VDP的整体框架包含以下几个关键模块：多视角视频输入模块，用于获取环境的多视角视觉信息；视频扩散模型，用于同时预测多视角热图视频和RGB视频；动作生成模块，基于预测的视频生成机器人的动作指令。该框架通过端到端的方式进行训练，从而实现数据高效的机器人操作。

关键创新：MV-VDP最重要的技术创新在于其联合建模3D空间和时间演变的能力。与现有方法相比，MV-VDP不仅关注机器人的动作，还关注环境对这些动作的响应，从而更全面地理解环境的动态变化。此外，通过同时预测多视角热图视频和RGB视频，MV-VDP实现了视频预训练和动作微调的对齐，提高了数据效率。

关键设计：MV-VDP的关键设计包括：使用扩散模型进行视频预测，能够生成更逼真和多样化的未来视频；采用多视角输入，能够更全面地捕捉环境的3D空间信息；设计了特定的损失函数，用于约束预测视频的准确性和一致性。具体的网络结构和参数设置根据不同的任务进行调整，以达到最佳性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MV-VDP在Meta-World和真实机器人平台上均优于现有方法。在Meta-World上，MV-VDP在多个任务上取得了显著的性能提升。在真实机器人平台上，仅使用十个演示轨迹，MV-VDP就能成功完成复杂的物体抓取和放置任务，并且表现出强大的鲁棒性和泛化能力。与基于视频预测、基于3D和视觉-语言-动作的模型相比，MV-VDP在数据效率和性能方面均取得了显著优势。

🎯 应用场景

MV-VDP具有广泛的应用前景，可应用于各种机器人操作任务，如物体抓取、装配、导航等。该方法尤其适用于数据稀缺的场景，例如在新的环境中进行操作或执行复杂的任务。此外，MV-VDP的可解释性使其能够用于机器人故障诊断和调试，从而提高机器人的可靠性和安全性。未来，MV-VDP有望推动机器人技术在工业自动化、医疗保健、家庭服务等领域的应用。

📄 摘要（原文）

Robotic manipulation requires understanding both the 3D spatial structure of the environment and its temporal evolution, yet most existing policies overlook one or both. They typically rely on 2D visual observations and backbones pretrained on static image--text pairs, resulting in high data requirements and limited understanding of environment dynamics. To address this, we introduce MV-VDP, a multi-view video diffusion policy that jointly models the 3D spatio-temporal state of the environment. The core idea is to simultaneously predict multi-view heatmap videos and RGB videos, which 1) align the representation format of video pretraining with action finetuning, and 2) specify not only what actions the robot should take, but also how the environment is expected to evolve in response to those actions. Extensive experiments show that MV-VDP enables data-efficient, robust, generalizable, and interpretable manipulation. With only ten demonstration trajectories and without additional pretraining, MV-VDP successfully performs complex real-world tasks, demonstrates strong robustness across a range of model hyperparameters, generalizes to out-of-distribution settings, and predicts realistic future videos. Experiments on Meta-World and real-world robotic platforms demonstrate that MV-VDP consistently outperforms video-prediction--based, 3D-based, and vision--language--action models, establishing a new state of the art in data-efficient multi-task manipulation.

Multi-View Video Diffusion Policy: A 3D Spatio-Temporal-Aware Video Action Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理