DriveVA: Video Action Models are Zero-Shot Drivers

📄 arXiv: 2604.04198 📥 PDF

作者: Mengmeng Liu, Diankun Zhang, Jiuming Liu, Jianfeng Cui, Hongwei Xie, Guang Chen, Hangjun Ye, Michael Ying Yang, Francesco Nex, Hao Cheng

分类: cs.CV, cs.RO

发布日期: 2026-04-07


💡 一句话要点

DriveVA:利用视频动作模型实现自动驾驶零样本泛化

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱八:物理动画 (Physics-based Animation)

关键词: 自动驾驶 世界模型 视频生成 动作预测 零样本学习

📋 核心要点

  1. 现有基于世界模型的自动驾驶规划方法泛化性不足,难以适应新的场景和传感器配置,且视频-轨迹一致性较差。
  2. DriveVA通过联合解码未来视觉预测和动作序列,并从大规模视频生成模型中学习先验知识,实现更紧密的规划与场景演化对齐。
  3. 实验表明,DriveVA在多个数据集上实现了显著的性能提升,尤其在零样本和跨域泛化方面表现突出,降低了L2误差和碰撞率。

📝 摘要(中文)

自动驾驶面临的核心挑战是泛化能力,需要在未见过的场景、传感器领域和环境条件下保持鲁棒性。现有的基于世界模型的规划方法在场景理解和多模态未来预测方面表现出色,但其跨数据集和传感器配置的泛化能力有限。此外,其松散耦合的规划范式常常导致视觉想象过程中视频-轨迹一致性较差。为了克服这些限制,我们提出了DriveVA,一种新颖的自动驾驶世界模型,它在共享的潜在生成过程中联合解码未来的视觉预测和动作序列。DriveVA从预训练的大规模视频生成模型中继承了丰富的运动动力学和物理合理性先验知识,以捕捉连续的时空演化和因果交互模式。为此,DriveVA采用基于DiT的解码器来联合预测未来的动作序列(轨迹)和视频,从而实现规划和场景演化之间更紧密的对齐。我们还引入了一种视频延续策略来加强长期rollout的一致性。DriveVA在具有挑战性的NAVSIM上实现了90.9的PDM得分,表现出色。大量实验还证明了DriveVA的零样本能力和跨域泛化能力,与最先进的基于世界模型的规划器相比,在nuScenes上平均L2误差和碰撞率分别降低了78.9%和83.3%,在基于CARLA v2构建的Bench2drive上分别降低了52.5%和52.4%。

🔬 方法详解

问题定义:现有基于世界模型的自动驾驶规划方法在泛化性和视频-轨迹一致性方面存在不足。它们难以适应未见过的场景、传感器配置和环境条件,并且在视觉想象过程中,规划的轨迹与生成的视频之间缺乏紧密的联系,导致不一致的行为。

核心思路:DriveVA的核心思路是利用大规模视频生成模型中学习到的运动动力学和物理合理性先验知识,通过联合解码未来的视觉预测和动作序列,建立一个更紧密耦合的规划和场景演化模型。这种联合解码的方式能够更好地保证视频和轨迹的一致性,提高泛化能力。

技术框架:DriveVA的整体架构包含一个编码器和一个基于DiT(Diffusion Transformer)的解码器。编码器负责将历史的感知信息(例如,图像、传感器数据)编码成潜在表示。解码器则利用这些潜在表示,联合预测未来的视频帧和动作序列。为了提高长期rollout的一致性,还引入了视频延续策略。

关键创新:DriveVA的关键创新在于其联合解码框架和对大规模视频生成模型先验知识的利用。与以往方法分别进行视频预测和轨迹规划不同,DriveVA将两者置于一个统一的生成过程中,从而实现了更紧密的对齐。此外,利用DiT架构能够更好地捕捉视频中的时空依赖关系。

关键设计:DriveVA使用DiT作为解码器,DiT是一种基于Transformer的扩散模型,能够生成高质量的视频。损失函数包括视频重建损失和轨迹预测损失,用于优化模型的参数。视频延续策略通过在训练过程中将部分历史帧作为输入,鼓励模型生成更连贯的视频序列。具体的参数设置和网络结构细节未在摘要中详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DriveVA在NAVSIM挑战赛上取得了90.9的PDM得分,表现出色。在nuScenes数据集上,与最先进的基于世界模型的规划器相比,DriveVA的平均L2误差降低了78.9%,碰撞率降低了83.3%。在基于CARLA v2构建的Bench2drive数据集上,平均L2误差降低了52.5%,碰撞率降低了52.4%。这些结果表明DriveVA具有显著的性能优势和良好的泛化能力。

🎯 应用场景

DriveVA具有广泛的应用前景,可用于提升自动驾驶系统在各种复杂和未知的环境中的鲁棒性和安全性。它可以应用于车辆的运动规划、决策控制以及仿真测试等方面。此外,该方法也可以推广到其他需要预测未来视觉场景和控制动作的机器人应用中,例如无人机导航、机器人操作等。

📄 摘要(原文)

Generalization is a central challenge in autonomous driving, as real-world deployment requires robust performance under unseen scenarios, sensor domains, and environmental conditions. Recent world-model-based planning methods have shown strong capabilities in scene understanding and multi-modal future prediction, yet their generalization across datasets and sensor configurations remains limited. In addition, their loosely coupled planning paradigm often leads to poor video-trajectory consistency during visual imagination. To overcome these limitations, we propose DriveVA, a novel autonomous driving world model that jointly decodes future visual forecasts and action sequences in a shared latent generative process. DriveVA inherits rich priors on motion dynamics and physical plausibility from well-pretrained large-scale video generation models to capture continuous spatiotemporal evolution and causal interaction patterns. To this end, DriveVA employs a DiT-based decoder to jointly predict future action sequences (trajectories) and videos, enabling tighter alignment between planning and scene evolution. We also introduce a video continuation strategy to strengthen long-duration rollout consistency. DriveVA achieves an impressive closed-loop performance of 90.9 PDM score on the challenge NAVSIM. Extensive experiments also demonstrate the zero-shot capability and cross-domain generalization of DriveVA, which reduces average L2 error and collision rate by 78.9% and 83.3% on nuScenes and 52.5% and 52.4% on the Bench2drive built on CARLA v2 compared with the state-of-the-art world-model-based planner.