Toward Physically Consistent Driving Video World Models under Challenging Trajectories
作者: Jiawei Zhou, Zhenxin Zhu, Lingyi Du, Linye Lyu, Lijun Zhou, Zhanqian Wu, Hongcheng Luo, Zhuotao Tian, Bing Wang, Guang Chen, Hangjun Ye, Haiyang Sun, Yu Li
分类: cs.CV
发布日期: 2026-03-25
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出PhyGenesis,解决自动驾驶世界模型在异常轨迹下的物理不一致性问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)
关键词: 驾驶视频生成 世界模型 物理一致性 自动驾驶仿真 异常轨迹 CARLA模拟器 异构数据集
📋 核心要点
- 现有驾驶视频生成模型在异常轨迹下,容易产生物理不一致的视频,限制了其在自动驾驶仿真中的应用。
- PhyGenesis通过物理条件生成器和物理增强的视频生成器,将无效轨迹转化为合理条件,生成高保真多视角视频。
- 通过构建包含真实数据和CARLA模拟数据的异构数据集,并采用挑战性轨迹学习策略,显著提升了模型在异常情况下的性能。
📝 摘要(中文)
本文提出PhyGenesis,一种用于生成具有高视觉保真度和强物理一致性的驾驶视频的世界模型。现有方法主要在真实驾驶数据集上训练,这些数据集大多包含自然和安全的驾驶场景。因此,当以模拟器或规划系统生成的具有挑战性或反事实的轨迹为条件时,现有模型通常会失效,产生具有严重物理不一致性和伪影的视频。PhyGenesis框架包含两个关键组件:(1)物理条件生成器,将潜在的无效轨迹输入转换为物理上合理的条件;(2)物理增强的视频生成器,在这些条件下生成高保真度的多视角驾驶视频。为了有效地训练这些组件,我们构建了一个大规模的、物理丰富的异构数据集。除了真实世界的驾驶视频外,我们还使用CARLA模拟器生成各种具有挑战性的驾驶场景,从中获得监督信号,引导模型学习极端条件下的物理动力学。这种具有挑战性的轨迹学习策略能够实现轨迹校正并促进物理上一致的视频生成。大量实验表明,PhyGenesis始终优于最先进的方法,尤其是在具有挑战性的轨迹上。
🔬 方法详解
问题定义:现有驾驶视频生成模型主要依赖真实驾驶数据训练,这些数据通常包含安全场景。当输入由模拟器或规划系统产生的具有挑战性的、不完美的轨迹时,模型难以生成符合物理规律的视频,出现严重的视觉伪影和物理不一致性。这限制了这些模型在自动驾驶仿真和测试中的应用,因为它们无法准确反映车辆在极端或异常情况下的行为。
核心思路:PhyGenesis的核心思路是将不合理的轨迹输入转化为物理上合理的条件,然后基于这些条件生成视频。通过解耦轨迹输入和视频生成,并引入物理约束,模型能够更好地处理异常轨迹,生成更逼真、更符合物理规律的驾驶视频。这种方法的核心在于学习一个从不合理轨迹到合理物理条件的映射,并利用这些条件指导视频生成。
技术框架:PhyGenesis框架包含两个主要模块:物理条件生成器和物理增强的视频生成器。首先,物理条件生成器接收可能无效的轨迹输入,并将其转换为物理上合理的条件表示。然后,物理增强的视频生成器利用这些条件生成高保真度的多视角驾驶视频。为了训练这两个模块,论文构建了一个大规模的异构数据集,包含真实驾驶视频和CARLA模拟器生成的具有挑战性的驾驶场景。通过在异构数据上进行训练,模型能够学习到更鲁棒的物理动力学。
关键创新:PhyGenesis的关键创新在于其物理条件生成器,它能够将不合理的轨迹输入转化为合理的物理条件。这种转换过程使得模型能够处理异常轨迹,并生成符合物理规律的视频。此外,论文提出的挑战性轨迹学习策略,通过在CARLA模拟器中生成极端驾驶场景,增强了模型在异常情况下的鲁棒性。这种方法与现有方法直接基于真实数据训练不同,它更加注重学习物理规律,从而提高了模型在各种驾驶场景下的泛化能力。
关键设计:物理条件生成器的具体实现细节未知,但可以推测其可能包含轨迹平滑、速度约束、碰撞避免等模块,以确保生成的条件在物理上是合理的。物理增强的视频生成器可能采用基于GAN或Transformer的架构,并引入物理约束损失函数,以鼓励生成符合物理规律的视频。异构数据集的构建也是一个关键设计,它需要平衡真实数据和模拟数据的比例,并确保模拟数据能够覆盖各种具有挑战性的驾驶场景。具体的网络结构、损失函数和训练策略等细节在论文中可能有所描述,但此处无法得知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PhyGenesis在具有挑战性的轨迹上显著优于现有方法。具体性能数据未知,但摘要强调PhyGenesis在物理一致性和视觉保真度方面均有提升。通过在异构数据集上进行训练,并采用挑战性轨迹学习策略,PhyGenesis能够更好地处理异常驾驶场景,生成更逼真、更符合物理规律的驾驶视频。
🎯 应用场景
PhyGenesis可应用于自动驾驶系统的仿真测试、数据增强和模型验证。通过生成具有物理一致性的驾驶视频,可以更有效地评估自动驾驶算法在各种极端和异常情况下的性能。此外,该模型还可以用于生成合成训练数据,以提高自动驾驶系统的鲁棒性和泛化能力。未来,该技术有望应用于更广泛的机器人和虚拟现实领域。
📄 摘要(原文)
Video generation models have shown strong potential as world models for autonomous driving simulation. However, existing approaches are primarily trained on real-world driving datasets, which mostly contain natural and safe driving scenarios. As a result, current models often fail when conditioned on challenging or counterfactual trajectories-such as imperfect trajectories generated by simulators or planning systems-producing videos with severe physical inconsistencies and artifacts. To address this limitation, we propose PhyGenesis, a world model designed to generate driving videos with high visual fidelity and strong physical consistency. Our framework consists of two key components: (1) a physical condition generator that transforms potentially invalid trajectory inputs into physically plausible conditions, and (2) a physics-enhanced video generator that produces high-fidelity multi-view driving videos under these conditions. To effectively train these components, we construct a large-scale, physics-rich heterogeneous dataset. Specifically, in addition to real-world driving videos, we generate diverse challenging driving scenarios using the CARLA simulator, from which we derive supervision signals that guide the model to learn physically grounded dynamics under extreme conditions. This challenging-trajectory learning strategy enables trajectory correction and promotes physically consistent video generation. Extensive experiments demonstrate that PhyGenesis consistently outperforms state-of-the-art methods, especially on challenging trajectories. Our project page is available at: https://wm-research.github.io/PhyGenesis/.