DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving

📄 arXiv: 2405.04390v1 📥 PDF

作者: Chen Min, Dawei Zhao, Liang Xiao, Jian Zhao, Xinli Xu, Zheng Zhu, Lei Jin, Jianshu Li, Yulan Guo, Junliang Xing, Liping Jing, Yiming Nie, Bin Dai

分类: cs.CV

发布日期: 2024-05-07

备注: Accepted by CVPR2024


💡 一句话要点

DriveWorld:通过世界模型进行自动驾驶的4D预训练场景理解

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 自动驾驶 预训练 世界模型 4D场景理解 时空建模

📋 核心要点

  1. 现有视觉中心自动驾驶预训练方法主要依赖2D或3D任务,忽略了自动驾驶场景理解的4D时序特性。
  2. DriveWorld通过世界模型学习时空表征,利用动态记忆库模块和静态场景传播模块建模时序和空间信息。
  3. 实验表明,DriveWorld在多个自动驾驶任务上显著提升性能,例如3D目标检测、在线地图构建等。

📝 摘要(中文)

本文提出了一种基于世界模型的自动驾驶4D表征学习框架DriveWorld,旨在解决当前视觉中心自动驾驶预训练方法忽略时序信息的挑战。DriveWorld能够以时空方式从多摄像头驾驶视频中进行预训练。具体而言,我们提出了一个用于时空建模的记忆状态空间模型,该模型包含一个动态记忆库模块,用于学习时间感知的潜在动态以预测未来变化;以及一个静态场景传播模块,用于学习空间感知的潜在静态以提供全面的场景上下文。此外,我们还引入了一个任务提示来解耦任务感知的特征,以用于各种下游任务。实验表明,DriveWorld在各种自动驾驶任务上取得了有希望的结果。在使用OpenScene数据集进行预训练时,DriveWorld在3D目标检测方面实现了7.5%的mAP提升,在线地图构建方面实现了3.0%的IoU提升,多目标跟踪方面实现了5.0%的AMOTA提升,运动预测方面实现了0.1m的minADE降低,占用预测方面实现了3.0%的IoU提升,以及规划方面实现了0.34m的平均L2误差降低。

🔬 方法详解

问题定义:现有基于视觉的自动驾驶预训练方法,通常只关注2D图像或3D点云,忽略了自动驾驶场景中重要的时序信息。这些方法无法充分利用连续帧之间的关联性,导致学习到的表征在处理动态环境时表现不佳。因此,如何有效地利用时序信息进行预训练,是提升自动驾驶系统性能的关键挑战。

核心思路:DriveWorld的核心思路是利用世界模型来学习自动驾驶场景的4D时空表征。通过预测未来场景的变化,模型能够学习到场景的动态特性和潜在规律。这种基于预测的自监督学习方式,可以有效地利用大量的无标注驾驶视频数据,从而提升模型的泛化能力和鲁棒性。

技术框架:DriveWorld的整体框架包含三个主要模块:动态记忆库模块、静态场景传播模块和任务提示模块。首先,动态记忆库模块负责学习时间感知的潜在动态,通过预测未来场景的变化来捕捉时序信息。其次,静态场景传播模块负责学习空间感知的潜在静态,提供全面的场景上下文。最后,任务提示模块用于解耦任务相关的特征,以便将预训练模型应用于各种下游任务。

关键创新:DriveWorld的关键创新在于提出了一个记忆状态空间模型,用于时空建模。该模型能够同时捕捉场景的动态和静态特性,从而更全面地理解自动驾驶场景。此外,任务提示模块的设计使得预训练模型能够灵活地适应不同的下游任务,提高了模型的通用性。

关键设计:动态记忆库模块采用循环神经网络(RNN)或Transformer结构,用于建模时序依赖关系。静态场景传播模块则利用卷积神经网络(CNN)或图神经网络(GNN)来学习空间关系。损失函数通常包括预测损失和重构损失,用于约束模型学习到有效的时空表征。任务提示模块则通过引入可学习的参数,将任务相关的知识融入到预训练模型中。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DriveWorld在OpenScene数据集上预训练后,在多个自动驾驶任务上取得了显著的性能提升。具体而言,3D目标检测的mAP提升了7.5%,在线地图构建的IoU提升了3.0%,多目标跟踪的AMOTA提升了5.0%,运动预测的minADE降低了0.1m,占用预测的IoU提升了3.0%,路径规划的平均L2误差降低了0.34m。这些结果表明,DriveWorld能够有效地学习自动驾驶场景的4D表征,并提升下游任务的性能。

🎯 应用场景

DriveWorld可应用于各种自动驾驶任务,例如3D目标检测、在线地图构建、多目标跟踪、运动预测、占用预测和路径规划。通过预训练,可以显著提升这些任务的性能,降低对大量标注数据的依赖,加速自动驾驶系统的开发和部署。该研究对于推动自动驾驶技术的进步具有重要的实际价值和未来影响。

📄 摘要(原文)

Vision-centric autonomous driving has recently raised wide attention due to its lower cost. Pre-training is essential for extracting a universal representation. However, current vision-centric pre-training typically relies on either 2D or 3D pre-text tasks, overlooking the temporal characteristics of autonomous driving as a 4D scene understanding task. In this paper, we address this challenge by introducing a world model-based autonomous driving 4D representation learning framework, dubbed \emph{DriveWorld}, which is capable of pre-training from multi-camera driving videos in a spatio-temporal fashion. Specifically, we propose a Memory State-Space Model for spatio-temporal modelling, which consists of a Dynamic Memory Bank module for learning temporal-aware latent dynamics to predict future changes and a Static Scene Propagation module for learning spatial-aware latent statics to offer comprehensive scene contexts. We additionally introduce a Task Prompt to decouple task-aware features for various downstream tasks. The experiments demonstrate that DriveWorld delivers promising results on various autonomous driving tasks. When pre-trained with the OpenScene dataset, DriveWorld achieves a 7.5% increase in mAP for 3D object detection, a 3.0% increase in IoU for online mapping, a 5.0% increase in AMOTA for multi-object tracking, a 0.1m decrease in minADE for motion forecasting, a 3.0% increase in IoU for occupancy prediction, and a 0.34m reduction in average L2 error for planning.