ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment
作者: Yuzhi Chen, Ronghan Chen, Dongjie Huo, Yandan Yang, Dekang Qi, Haoyun Liu, Tong Lin, Shuang Zeng, Junjin Xiao, Xinyuan Chang, Feng Xiong, Xing Wei, Zhiheng Ma, Mu Xu
分类: cs.CV, cs.RO
发布日期: 2026-03-24
💡 一句话要点
ABot-PhysWorld:基于物理对齐的交互式世界基础模型,用于机器人操作
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 世界模型 机器人操作 物理对齐 Diffusion Transformer DPO 具身智能 视频生成 零样本学习
📋 核心要点
- 现有基于视频的世界模型在生成机器人操作时,常出现物体穿透、反重力等不符合物理规律的现象。
- ABot-PhysWorld通过构建物理对齐的数据集,并采用基于DPO的后训练框架,抑制不符合物理规律的行为,提升物理合理性。
- ABot-PhysWorld在PBench和EZSbench上取得了SOTA性能,超越了Veo 3.1和Sora v2 Pro,尤其在物理合理性和轨迹一致性方面。
📝 摘要(中文)
本文提出ABot-PhysWorld,一个140亿参数的Diffusion Transformer模型,旨在生成视觉上逼真、物理上合理且动作可控的视频,用于机器人操作任务。该模型基于一个包含三百万个操作片段的精选数据集进行训练,该数据集具有物理感知的标注。同时,采用了一种新颖的基于DPO的后训练框架,该框架使用解耦的判别器来抑制不符合物理规律的行为,同时保持视觉质量。一个并行的上下文块实现了精确的空间动作注入,用于跨具身控制。为了更好地评估泛化能力,引入了EZSbench,这是第一个训练独立的具身零样本基准,结合了真实和合成的未见过的机器人-任务-场景组合。它采用解耦协议来分别评估物理真实性和动作对齐。ABot-PhysWorld在PBench和EZSbench上取得了新的state-of-the-art性能,在物理合理性和轨迹一致性方面超越了Veo 3.1和Sora v2 Pro。我们将发布EZSbench,以促进具身视频生成中的标准化评估。
🔬 方法详解
问题定义:现有基于视频的世界模型在机器人操作任务中,由于训练数据缺乏物理约束以及基于似然的目标函数,导致生成的视频常常出现物体穿透、反重力等不符合物理规律的现象。这些不真实的模拟环境严重限制了其在机器人控制和规划中的应用。
核心思路:ABot-PhysWorld的核心思路是通过构建一个包含物理信息的训练数据集,并采用一种基于DPO(Direct Preference Optimization)的后训练框架,来显式地学习和强化物理规律。通过这种方式,模型能够生成更加符合物理规律的视频,从而提高其在机器人操作任务中的实用性。
技术框架:ABot-PhysWorld的整体框架包括数据收集与标注、模型训练和基于DPO的后训练三个主要阶段。首先,构建一个包含三百万个操作片段的精选数据集,并进行物理感知的标注。然后,使用Diffusion Transformer模型进行训练,使其能够生成视觉上逼真的视频。最后,采用基于DPO的后训练框架,使用解耦的判别器来区分物理合理和不合理的行为,从而抑制不符合物理规律的生成结果。此外,模型还包含一个并行的上下文块,用于精确的空间动作注入,以实现跨具身控制。
关键创新:ABot-PhysWorld的关键创新在于以下几个方面:1) 构建了包含物理信息的训练数据集,为模型学习物理规律提供了基础;2) 提出了基于DPO的后训练框架,能够有效地抑制不符合物理规律的行为,同时保持视觉质量;3) 引入了并行的上下文块,实现了精确的空间动作注入,提高了动作控制的精度;4) 发布了EZSbench,这是一个训练独立的具身零样本基准,用于评估模型的泛化能力。
关键设计:在DPO后训练框架中,使用了两个解耦的判别器,分别用于评估物理合理性和视觉质量。DPO损失函数的设计旨在最大化物理合理性的同时,最小化视觉质量的损失。并行的上下文块采用了一种特殊的设计,能够将动作信息精确地注入到视频生成过程中,从而实现对机器人操作的精确控制。Diffusion Transformer模型的具体参数设置和训练策略也经过了精心的调整,以获得最佳的生成效果。
📊 实验亮点
ABot-PhysWorld在PBench和EZSbench上取得了新的state-of-the-art性能。在EZSbench上,ABot-PhysWorld在物理合理性和轨迹一致性方面显著超越了Veo 3.1和Sora v2 Pro。这些实验结果表明,ABot-PhysWorld能够生成更加符合物理规律且动作可控的视频,具有很强的实用价值。
🎯 应用场景
ABot-PhysWorld在机器人操作、具身智能、虚拟环境仿真等领域具有广泛的应用前景。它可以用于生成逼真的机器人操作视频,从而帮助机器人学习和规划复杂的任务。此外,它还可以用于创建更加真实的虚拟环境,用于训练和测试机器人,降低实际部署的成本和风险。该研究的成果将推动机器人技术的发展,并为未来的智能机器人应用奠定基础。
📄 摘要(原文)
Video-based world models offer a powerful paradigm for embodied simulation and planning, yet state-of-the-art models often generate physically implausible manipulations - such as object penetration and anti-gravity motion - due to training on generic visual data and likelihood-based objectives that ignore physical laws. We present ABot-PhysWorld, a 14B Diffusion Transformer model that generates visually realistic, physically plausible, and action-controllable videos. Built on a curated dataset of three million manipulation clips with physics-aware annotation, it uses a novel DPO-based post-training framework with decoupled discriminators to suppress unphysical behaviors while preserving visual quality. A parallel context block enables precise spatial action injection for cross-embodiment control. To better evaluate generalization, we introduce EZSbench, the first training-independent embodied zero-shot benchmark combining real and synthetic unseen robot-task-scene combinations. It employs a decoupled protocol to separately assess physical realism and action alignment. ABot-PhysWorld achieves new state-of-the-art performance on PBench and EZSbench, surpassing Veo 3.1 and Sora v2 Pro in physical plausibility and trajectory consistency. We will release EZSbench to promote standardized evaluation in embodied video generation.