Video2Act: A Dual-System Video Diffusion Policy with Robotic Spatio-Motional Modeling

📄 arXiv: 2512.03044v1 📥 PDF

作者: Yueru Jia, Jiaming Liu, Shengbang Liu, Rui Zhou, Wanhe Yu, Yuyang Yan, Xiaowei Chi, Yandong Guo, Boxin Shi, Shanghang Zhang

分类: cs.RO

发布日期: 2025-12-02


💡 一句话要点

Video2Act:利用机器人时空运动建模的双系统视频扩散策略

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人策略学习 视频扩散模型 时空运动建模 扩散Transformer 双系统设计

📋 核心要点

  1. 现有机器人策略学习方法忽略了视频扩散模型(VDMs)中蕴含的连贯和物理一致的运动信息。
  2. Video2Act通过提取前景边界和帧间运动变化,并将其作为条件输入到扩散Transformer动作头,显式地整合空间和运动感知表示。
  3. Video2Act采用异步双系统设计,VDM作为慢速系统2,DiT头作为快速系统1,协同生成自适应动作,并在真实世界任务中取得了显著的性能提升。

📝 摘要(中文)

鲁棒的感知和动力学建模是现实世界机器人策略学习的基础。最近的方法采用视频扩散模型(VDMs)来增强机器人策略,提高它们对物理世界的理解和建模能力。然而,现有方法忽略了VDMs中跨帧内在编码的连贯且物理一致的运动表示。为此,我们提出了Video2Act,一个通过显式集成空间和运动感知表示来有效指导机器人动作学习的框架。基于VDMs的内在表示,我们提取前景边界和帧间运动变化,同时过滤掉背景噪声和任务无关的偏差。这些精炼的表示被用作扩散Transformer(DiT)动作头的额外条件输入,使其能够推理出要操纵什么以及如何移动。为了缓解推理效率低下问题,我们提出了一种异步双系统设计,其中VDM作为慢速系统2,DiT头作为快速系统1,协同工作以生成自适应动作。通过向系统1提供运动感知条件,即使VDM的更新频率较低,Video2Act也能保持稳定的操作。在评估方面,Video2Act在模拟和真实世界任务中的平均成功率分别超过了先前的最先进VLA方法7.7%和21.7%,进一步展示了强大的泛化能力。

🔬 方法详解

问题定义:现有基于视频扩散模型的机器人策略学习方法,未能充分利用视频帧间蕴含的连贯和物理一致的运动信息,导致策略学习效率和鲁棒性受限。这些方法通常直接使用原始视频帧作为条件,忽略了背景噪声和任务无关的偏差,使得模型难以有效学习到关键的运动信息。

核心思路:Video2Act的核心思路是显式地提取和利用视频中的空间和运动信息,并将其作为条件输入到动作策略网络中。通过这种方式,模型可以更有效地学习到如何操纵物体以及如何移动,从而提高策略学习的效率和鲁棒性。此外,采用双系统设计,平衡了计算复杂度和响应速度。

技术框架:Video2Act框架包含两个主要系统:系统1(快速)和系统2(慢速)。系统2是视频扩散模型(VDM),负责从视频中提取高级语义信息。系统1是扩散Transformer(DiT)动作头,负责根据系统2提供的条件生成动作。框架首先使用VDM提取前景边界和帧间运动变化,然后将这些信息作为条件输入到DiT动作头中,最后DiT生成机器人动作。系统1和系统2异步运行,系统1可以快速响应环境变化,而系统2可以提供更准确的长期规划。

关键创新:Video2Act的关键创新在于显式地建模和利用了视频中的空间和运动信息。与现有方法相比,Video2Act能够更有效地过滤掉背景噪声和任务无关的偏差,从而提高策略学习的效率和鲁棒性。此外,异步双系统设计能够在计算复杂度和响应速度之间取得平衡。

关键设计:Video2Act的关键设计包括:1) 使用预训练的VDM提取前景边界和帧间运动变化;2) 将提取的运动信息作为条件输入到DiT动作头中;3) 采用异步双系统设计,其中VDM作为慢速系统2,DiT头作为快速系统1。具体的损失函数和网络结构细节在论文中有详细描述,包括DiT的结构和训练方式,以及如何将运动信息编码到DiT的输入中。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Video2Act在模拟和真实世界任务中都取得了显著的性能提升。在模拟环境中,Video2Act的平均成功率超过了先前的最先进VLA方法7.7%。在真实世界任务中,Video2Act的平均成功率超过了先前的最先进VLA方法21.7%。这些结果表明,Video2Act具有强大的泛化能力和实际应用价值。

🎯 应用场景

Video2Act具有广泛的应用前景,可应用于各种机器人操作任务,例如物体抓取、装配、导航等。该方法可以提高机器人在复杂环境中的操作能力,使其能够更好地适应不同的任务需求。此外,该方法还可以应用于自动驾驶、智能监控等领域,提高系统的感知和决策能力。未来,Video2Act有望成为机器人领域的一项关键技术。

📄 摘要(原文)

Robust perception and dynamics modeling are fundamental to real-world robotic policy learning. Recent methods employ video diffusion models (VDMs) to enhance robotic policies, improving their understanding and modeling of the physical world. However, existing approaches overlook the coherent and physically consistent motion representations inherently encoded across frames in VDMs. To this end, we propose Video2Act, a framework that efficiently guides robotic action learning by explicitly integrating spatial and motion-aware representations. Building on the inherent representations of VDMs, we extract foreground boundaries and inter-frame motion variations while filtering out background noise and task-irrelevant biases. These refined representations are then used as additional conditioning inputs to a diffusion transformer (DiT) action head, enabling it to reason about what to manipulate and how to move. To mitigate inference inefficiency, we propose an asynchronous dual-system design, where the VDM functions as the slow System 2 and the DiT head as the fast System 1, working collaboratively to generate adaptive actions. By providing motion-aware conditions to System 1, Video2Act maintains stable manipulation even with low-frequency updates from the VDM. For evaluation, Video2Act surpasses previous state-of-the-art VLA methods by 7.7% in simulation and 21.7% in real-world tasks in terms of average success rate, further exhibiting strong generalization capabilities.