DriVerse: Navigation World Model for Driving Simulation via Multimodal Trajectory Prompting and Motion Alignment

📄 arXiv: 2504.18576v1 📥 PDF

作者: Xiaofan Li, Chenming Wu, Zhao Yang, Zhihao Xu, Dingkang Liang, Yumeng Zhang, Ji Wan, Jun Wang

分类: cs.RO

发布日期: 2025-04-22

备注: 10 pages, 5 figures


💡 一句话要点

DriVerse:通过多模态轨迹提示和运动对齐实现驾驶模拟的导航世界模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 驾驶模拟 世界模型 轨迹预测 视频生成 多模态学习

📋 核心要点

  1. 现有自动驾驶世界模型在控制输入与2D生成模型特征对齐方面存在不足,导致视频生成质量不高。
  2. DriVerse通过将轨迹转换为文本提示和2D运动先验,显式地引导视频生成,提升控制精度。
  3. DriVerse引入运动对齐模块,增强动态物体的时间一致性,在nuScenes和Waymo数据集上表现优异。

📝 摘要(中文)

本文提出了DriVerse,一个生成模型,用于从单张图像和未来轨迹中模拟导航驱动的驾驶场景。以往的自动驾驶世界模型要么直接将轨迹或离散控制信号输入生成流程,导致控制输入与2D基础生成模型的隐式特征之间对齐不良,从而产生低保真度的视频输出。一些方法使用粗略的文本命令或离散的车辆控制信号,缺乏指导细粒度、特定轨迹视频生成的精度,使其不适合评估实际的自动驾驶算法。DriVerse以两种互补的形式引入了显式轨迹引导:它使用预定义的趋势词汇将轨迹标记化为文本提示,以实现无缝的语言集成,并将3D轨迹转换为2D空间运动先验,以增强对驾驶场景中静态内容的控制。为了更好地处理动态对象,我们进一步引入了一个轻量级的运动对齐模块,该模块专注于动态像素的帧间一致性,显著增强了移动元素在长序列上的时间连贯性。在最少的训练和无需额外数据的情况下,DriVerse在nuScenes和Waymo数据集上的未来视频生成任务中优于专门的模型。代码和模型将公开发布。

🔬 方法详解

问题定义:现有自动驾驶世界模型难以生成高保真、与轨迹精确对齐的驾驶场景视频。直接输入轨迹或离散控制信号会导致控制输入与2D生成模型的隐式特征对齐不良,而粗略的文本命令或离散控制信号又缺乏足够的精度来指导细粒度的视频生成,无法有效评估自动驾驶算法。

核心思路:DriVerse的核心思路是通过多模态的轨迹提示来显式地引导视频生成过程。具体来说,它将轨迹信息编码为文本提示(trajectory tokenization)和2D空间运动先验(spatial motion priors),从而更精确地控制生成过程,并提高生成视频的质量和与轨迹的对齐程度。此外,还引入运动对齐模块来增强动态物体的时间一致性。

技术框架:DriVerse的整体框架包含以下几个主要模块:1) 轨迹编码模块:将3D轨迹转换为文本提示和2D空间运动先验。2) 视频生成模块:基于文本提示和运动先验生成驾驶场景视频。3) 运动对齐模块:增强动态物体的时间一致性。整个流程是从单张图像和未来轨迹开始,经过轨迹编码后,与图像信息一起输入到视频生成模块,最后通过运动对齐模块进行优化。

关键创新:DriVerse的关键创新在于:1) 提出了多模态轨迹提示,将轨迹信息编码为文本提示和2D空间运动先验,从而更精确地控制视频生成过程。2) 引入了轻量级的运动对齐模块,专注于动态像素的帧间一致性,显著增强了移动元素在长序列上的时间连贯性。3) 无需额外数据和最小的训练成本,即可超越专门的模型。

关键设计:轨迹编码模块使用预定义的趋势词汇将轨迹标记化为文本提示。3D轨迹被转换为2D空间运动先验,以增强对驾驶场景中静态内容的控制。运动对齐模块的具体网络结构和损失函数未知,但其目标是最小化相邻帧之间动态像素的不一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DriVerse在nuScenes和Waymo数据集上进行了实验,结果表明,在未来视频生成任务中,DriVerse在最少的训练和无需额外数据的情况下,优于专门的模型。具体的性能指标和提升幅度未知,但摘要强调了其超越现有模型的优越性。

🎯 应用场景

DriVerse可应用于自动驾驶算法的仿真测试与验证,通过生成逼真的驾驶场景视频,评估自动驾驶系统在各种复杂环境下的性能。此外,该模型还可用于自动驾驶数据的增强,生成更多样化的训练数据,提升自动驾驶模型的泛化能力。该研究对推动自动驾驶技术的安全可靠发展具有重要意义。

📄 摘要(原文)

This paper presents DriVerse, a generative model for simulating navigation-driven driving scenes from a single image and a future trajectory. Previous autonomous driving world models either directly feed the trajectory or discrete control signals into the generation pipeline, leading to poor alignment between the control inputs and the implicit features of the 2D base generative model, which results in low-fidelity video outputs. Some methods use coarse textual commands or discrete vehicle control signals, which lack the precision to guide fine-grained, trajectory-specific video generation, making them unsuitable for evaluating actual autonomous driving algorithms. DriVerse introduces explicit trajectory guidance in two complementary forms: it tokenizes trajectories into textual prompts using a predefined trend vocabulary for seamless language integration, and converts 3D trajectories into 2D spatial motion priors to enhance control over static content within the driving scene. To better handle dynamic objects, we further introduce a lightweight motion alignment module, which focuses on the inter-frame consistency of dynamic pixels, significantly enhancing the temporal coherence of moving elements over long sequences. With minimal training and no need for additional data, DriVerse outperforms specialized models on future video generation tasks across both the nuScenes and Waymo datasets. The code and models will be released to the public.