BridgeV2W: Bridging Video Generation Models to Embodied World Models via Embodiment Masks

📄 arXiv: 2602.03793v1 📥 PDF

作者: Yixiang Chen, Peiyan Li, Jiabing Yang, Keji He, Xiangnan Wu, Yuan Xu, Kai Wang, Jing Liu, Nianfeng Liu, Yan Huang, Liang Wang

分类: cs.RO, cs.CV

发布日期: 2026-02-03


💡 一句话要点

BridgeV2W:通过具身掩码桥接视频生成模型与具身世界模型,提升机器人操作性能。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting)

关键词: 具身世界模型 视频生成 机器人控制 具身掩码 ControlNet

📋 核心要点

  1. 现有具身世界模型在坐标空间动作与像素空间视频对齐、相机视点敏感性以及架构统一性方面存在不足。
  2. BridgeV2W通过将坐标空间动作转换为像素对齐的具身掩码,并注入到预训练视频生成模型中,实现动作控制与视频预测的对齐。
  3. 实验表明,BridgeV2W在单臂和双臂机器人数据集上提高了视频生成质量,并在策略评估和目标条件规划等真实世界任务中展现了潜力。

📝 摘要(中文)

具身世界模型已成为机器人领域一个很有前景的范例,它通常利用大规模互联网视频或预训练视频生成模型来丰富视觉和运动先验。然而,它们仍然面临关键挑战:坐标空间动作与像素空间视频之间的不对齐,对相机视点的敏感性,以及不同具身之间的非统一架构。为此,我们提出了BridgeV2W,它将坐标空间动作转换为从URDF和相机参数渲染的像素对齐的具身掩码。然后,这些掩码通过ControlNet风格的通路注入到预训练的视频生成模型中,从而将动作控制信号与预测视频对齐,添加特定于视点的条件以适应相机视点,并产生跨具身的统一世界模型架构。为了减轻对静态背景的过拟合,BridgeV2W进一步引入了基于光流的运动损失,该损失侧重于学习动态和任务相关的区域。在单臂(DROID)和双臂(AgiBot-G1)数据集上的实验表明,BridgeV2W在各种具有未见视点和场景的具有挑战性的条件下,提高了视频生成质量。我们进一步展示了BridgeV2W在下游真实世界任务中的潜力,包括策略评估和目标条件规划。

🔬 方法详解

问题定义:现有具身世界模型在机器人控制中存在坐标空间动作与像素空间视频不对齐的问题,导致模型难以准确理解和预测机器人的动作效果。此外,模型对相机视点变化敏感,且不同机器人平台需要不同的模型架构,缺乏通用性。

核心思路:BridgeV2W的核心思路是将机器人的动作指令(坐标空间)转换为像素级别的具身掩码,该掩码精确地描述了机器人在图像中的位置和姿态。通过将这些掩码作为条件输入到预训练的视频生成模型中,可以引导模型生成与动作指令相对应的视频,从而实现动作与视觉信息的对齐。

技术框架:BridgeV2W的整体框架包括三个主要模块:1) 具身掩码生成器:根据机器人的URDF模型和相机参数,将坐标空间动作转换为像素级别的具身掩码。2) ControlNet风格的注入模块:将生成的具身掩码通过ControlNet风格的通路注入到预训练的视频生成模型中,作为额外的条件信息。3) 视频生成模型:使用预训练的视频生成模型,如基于Transformer的模型,生成与动作指令相对应的视频。

关键创新:BridgeV2W的关键创新在于使用具身掩码作为桥梁,连接了坐标空间动作和像素空间视频。这种方法不仅实现了动作与视觉信息的对齐,还使得模型能够适应不同的相机视点和机器人平台,从而提高了模型的通用性和鲁棒性。此外,引入了基于光流的运动损失,以减少对静态背景的过拟合。

关键设计:具身掩码生成器利用URDF模型和相机参数进行渲染,确保掩码与图像像素精确对齐。ControlNet风格的注入模块采用并行的网络结构,避免了对预训练视频生成模型的参数进行大幅修改。基于光流的运动损失鼓励模型关注图像中动态变化的区域,从而提高对运动的建模能力。

📊 实验亮点

实验结果表明,BridgeV2W在单臂(DROID)和双臂(AgiBot-G1)数据集上,相比现有方法显著提高了视频生成质量。在未见过的视点和场景下,BridgeV2W仍能保持良好的性能。此外,BridgeV2W在策略评估和目标条件规划等下游任务中也展现出优越的性能,验证了其在真实世界应用中的潜力。

🎯 应用场景

BridgeV2W具有广泛的应用前景,可用于机器人策略学习、目标导向的运动规划、虚拟环境训练等领域。通过提高机器人对环境的理解和预测能力,可以提升机器人在复杂环境中的自主操作能力,例如在家庭服务、工业自动化、医疗康复等场景中。

📄 摘要(原文)

Embodied world models have emerged as a promising paradigm in robotics, most of which leverage large-scale Internet videos or pretrained video generation models to enrich visual and motion priors. However, they still face key challenges: a misalignment between coordinate-space actions and pixel-space videos, sensitivity to camera viewpoint, and non-unified architectures across embodiments. To this end, we present BridgeV2W, which converts coordinate-space actions into pixel-aligned embodiment masks rendered from the URDF and camera parameters. These masks are then injected into a pretrained video generation model via a ControlNet-style pathway, which aligns the action control signals with predicted videos, adds view-specific conditioning to accommodate camera viewpoints, and yields a unified world model architecture across embodiments. To mitigate overfitting to static backgrounds, BridgeV2W further introduces a flow-based motion loss that focuses on learning dynamic and task-relevant regions. Experiments on single-arm (DROID) and dual-arm (AgiBot-G1) datasets, covering diverse and challenging conditions with unseen viewpoints and scenes, show that BridgeV2W improves video generation quality compared to prior state-of-the-art methods. We further demonstrate the potential of BridgeV2W on downstream real-world tasks, including policy evaluation and goal-conditioned planning. More results can be found on our project website at https://BridgeV2W.github.io .