Bridging Scene Generation and Planning: Driving with World Model via Unifying Vision and Motion Representation

📄 arXiv: 2603.14948v1 📥 PDF

作者: Xingtai Gui, Meijie Zhang, Tianyi Yan, Wencheng Han, Jiahao Gong, Feiyang Tan, Cheng-zhong Xu, Jianbing Shen

分类: cs.CV

发布日期: 2026-03-16

备注: 16 pages, 9 figures. The code is available at https://github.com/TabGuigui/WorldDrive


💡 一句话要点

WorldDrive:统一视觉与运动表征,实现场景生成与规划的桥梁

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 自动驾驶 世界模型 运动规划 视觉表征 轨迹预测 多模态学习 场景生成

📋 核心要点

  1. 现有驾驶世界模型侧重视觉场景表征,缺乏显式为规划器共享和继承的运动表征,导致视觉生成与精确运动规划脱节。
  2. WorldDrive通过轨迹感知世界模型,在视觉动态和运动意图间建立一致性,并迁移视觉和运动编码器至多模态规划器。
  3. 实验表明,WorldDrive在多个基准测试中,在纯视觉方法中实现了领先的规划性能,并保持了高保真视频生成能力。

📝 摘要(中文)

本文提出WorldDrive,一个整体框架,通过统一视觉和运动表征来耦合场景生成和实时规划。首先,引入轨迹感知驾驶世界模型,该模型以轨迹词汇表为条件,以增强视觉动态和运动意图之间的一致性,从而能够生成基于特定轨迹的各种合理未来场景。然后,将视觉和运动编码器迁移到下游多模态规划器,确保驾驶策略在经过场景生成预优化的成熟表征上运行。运动表征、视觉表征和自我状态之间的简单交互可以生成高质量的多模态轨迹。此外,为了利用世界模型的前瞻性,提出了未来感知奖励器,它从冻结的世界模型中提取未来的潜在表征,以实时评估和选择最佳轨迹。在NAVSIM、NAVSIM-v2和nuScenes基准上的大量实验表明,WorldDrive在纯视觉方法中实现了领先的规划性能,同时保持了高保真的动作控制视频生成能力,为统一视觉和运动表征以实现鲁棒的自动驾驶提供了强有力的证据。

🔬 方法详解

问题定义:现有端到端自动驾驶方法,特别是基于世界模型的,在视觉场景生成方面表现良好,但缺乏对运动表征的有效建模,导致视觉信息和运动规划之间存在鸿沟。现有方法难以保证生成场景与规划轨迹的一致性,限制了规划的准确性和安全性。

核心思路:WorldDrive的核心思想是统一视觉和运动表征,将两者置于同一框架下进行优化。通过轨迹感知的世界模型,将运动意图融入视觉场景生成中,确保生成的未来场景与规划的轨迹保持一致。同时,将学习到的视觉和运动表征迁移到下游规划器,使得规划器能够利用预先优化的特征进行决策。

技术框架:WorldDrive包含三个主要模块:轨迹感知驾驶世界模型、多模态规划器和未来感知奖励器。首先,轨迹感知驾驶世界模型负责生成与特定轨迹相关的未来场景。然后,多模态规划器利用世界模型学习到的视觉和运动表征,生成多条候选轨迹。最后,未来感知奖励器利用世界模型预测的未来状态,评估候选轨迹的优劣,选择最优轨迹。

关键创新:WorldDrive的关键创新在于统一了视觉和运动表征,并将其应用于场景生成和运动规划。具体来说,轨迹感知驾驶世界模型通过轨迹词汇表将运动意图融入视觉场景生成中,实现了视觉和运动的对齐。未来感知奖励器则利用世界模型的前瞻性,提高了轨迹评估的准确性。

关键设计:轨迹感知驾驶世界模型以轨迹词汇表为条件,使用变分自编码器(VAE)学习视觉和运动的联合表征。多模态规划器使用Transformer网络融合视觉、运动和自我状态信息,生成多条候选轨迹。未来感知奖励器使用冻结的世界模型预测未来状态,并使用神经网络学习奖励函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

WorldDrive在NAVSIM、NAVSIM-v2和nuScenes等多个自动驾驶基准测试中取得了领先的规划性能。例如,在nuScenes基准测试中,WorldDrive在纯视觉方法中取得了最佳结果,证明了其在复杂驾驶场景下的有效性。同时,WorldDrive还保持了高保真的动作控制视频生成能力,验证了其场景理解和预测能力。

🎯 应用场景

WorldDrive的研究成果可应用于自动驾驶汽车、无人配送车、智能交通系统等领域。通过提升自动驾驶系统的规划能力和安全性,可以减少交通事故,提高交通效率,并为人们提供更便捷的出行方式。此外,该方法还可以扩展到其他需要场景理解和运动规划的机器人应用中。

📄 摘要(原文)

End-to-end autonomous driving aims to generate safe and plausible planning policies from raw sensor input. Driving world models have shown great potential in learning rich representations by predicting the future evolution of a driving scene. However, existing driving world models primarily focus on visual scene representation, and motion representation is not explicitly designed to be planner-shared and inheritable, leaving a schism between the optimization of visual scene generation and the requirements of precise motion planning. We present WorldDrive, a holistic framework that couples scene generation and real-time planning via unifying vision and motion representation. We first introduce a Trajectory-aware Driving World Model, which conditions on a trajectory vocabulary to enforce consistency between visual dynamics and motion intentions, enabling the generation of diverse and plausible future scenes conditioned on a specific trajectory. We transfer the vision and motion encoders to a downstream Multi-modal Planner, ensuring the driving policy operates on mature representations pre-optimized by scene generation. A simple interaction between motion representation, visual representation, and ego status can generate high-quality, multi-modal trajectories. Furthermore, to exploit the world model's foresight, we propose a Future-aware Rewarder, which distills future latent representation from the frozen world model to evaluate and select optimal trajectories in real-time. Extensive experiments on the NAVSIM, NAVSIM-v2, and nuScenes benchmarks demonstrate that WorldDrive achieves leading planning performance among vision-only methods while maintaining high-fidelity action-controlled video generation capabilities, providing strong evidence for the effectiveness of unifying vision and motion representation for robust autonomous driving.