DriveTok: 3D Driving Scene Tokenization for Unified Multi-View Reconstruction and Understanding

📄 arXiv: 2603.19219v1 📥 PDF

作者: Dong Zhuo, Wenzhao Zheng, Sicheng Zuo, Siming Yan, Lu Hou, Jie Zhou, Jiwen Lu

分类: cs.CV, cs.LG

发布日期: 2026-03-19

备注: Project Page: https://paryi555.github.io/DriveTok/ Code: https://github.com/paryi555/DriveTok


💡 一句话要点

DriveTok:提出用于统一多视角重建和理解的3D驾驶场景Token化方法。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 多视角重建 场景Token化 3D语义占据预测 可变形交叉注意力

📋 核心要点

  1. 现有Tokenizers主要针对单目和2D场景,无法有效处理高分辨率多视角驾驶场景,导致效率低和视角不一致。
  2. DriveTok利用3D可变形交叉注意力将视觉基础模型的特征转换为场景Token,并结合多视角Transformer进行重建。
  3. 实验表明,DriveTok在图像重建、语义分割、深度预测和3D占据预测等任务上表现出色,验证了其有效性。

📝 摘要(中文)

随着视觉-语言-动作模型和世界模型在自动驾驶系统中日益普及,可扩展的图像Token化作为视觉模态的接口变得至关重要。然而,现有的大多数Tokenizer是为单目和2D场景设计的,当应用于高分辨率多视角驾驶场景时,会导致效率低下和视角间不一致。为了解决这个问题,我们提出了DriveTok,一种高效的3D驾驶场景Tokenizer,用于统一的多视角重建和理解。DriveTok首先从视觉基础模型中获得语义丰富的视觉特征,然后通过3D可变形交叉注意力将其转换为场景Token。在解码方面,我们采用多视角Transformer从场景Token中重建多视角特征,并使用多个头来获得RGB、深度和语义重建。我们还在场景Token上直接添加了一个3D头,用于3D语义占据预测,以获得更好的空间感知。通过多个训练目标,DriveTok学习统一的场景Token,该Token集成了语义、几何和纹理信息,以实现高效的多视角Token化。在广泛使用的nuScenes数据集上的大量实验表明,来自DriveTok的场景Token在图像重建、语义分割、深度预测和3D占据预测任务中表现良好。

🔬 方法详解

问题定义:现有方法在处理自动驾驶场景中的多视角图像Token化时,主要面临两个痛点:一是效率问题,因为它们通常是为单目或2D场景设计的,无法有效处理高分辨率的多视角图像;二是视角一致性问题,不同视角的图像信息没有得到充分融合,导致重建和理解效果不佳。

核心思路:DriveTok的核心思路是学习一种统一的3D场景Token表示,该Token能够同时编码语义、几何和纹理信息,从而实现高效的多视角重建和理解。通过将多视角图像特征投影到3D空间,并利用3D可变形交叉注意力进行融合,可以有效地解决视角一致性问题,并提高Token化的效率。

技术框架:DriveTok的整体框架包括三个主要模块:特征提取模块、Token化模块和解码模块。首先,使用视觉基础模型提取多视角图像的语义特征。然后,利用3D可变形交叉注意力将这些特征转换为场景Token。最后,解码模块使用多视角Transformer从场景Token中重建多视角特征,并使用多个头进行RGB、深度和语义重建,同时添加一个3D头进行3D语义占据预测。

关键创新:DriveTok的关键创新在于提出了基于3D可变形交叉注意力的场景Token化方法。与传统的2D Token化方法相比,该方法能够更好地处理多视角图像,并有效地融合不同视角的特征。此外,通过引入3D语义占据预测任务,可以进一步提高场景Token的空间感知能力。

关键设计:在Token化模块中,使用了3D可变形交叉注意力,其关键在于可变形的采样点,允许模型自适应地选择重要的特征点进行融合。在解码模块中,使用了多头注意力机制,每个头负责重建不同的信息(RGB、深度、语义)。损失函数包括图像重建损失、语义分割损失、深度预测损失和3D占据预测损失,共同优化场景Token的表示。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DriveTok在nuScenes数据集上进行了广泛的实验,结果表明,该方法在图像重建、语义分割、深度预测和3D占据预测等任务上均取得了良好的性能。例如,在3D占据预测任务上,DriveTok相比于基线方法取得了显著的提升,验证了其有效性。

🎯 应用场景

DriveTok在自动驾驶领域具有广泛的应用前景,例如可以用于构建更强大的世界模型,提高自动驾驶系统的感知能力和决策能力。此外,该方法还可以应用于其他需要多视角图像理解的领域,例如机器人导航、虚拟现实和增强现实等。

📄 摘要(原文)

With the growing adoption of vision-language-action models and world models in autonomous driving systems, scalable image tokenization becomes crucial as the interface for the visual modality. However, most existing tokenizers are designed for monocular and 2D scenes, leading to inefficiency and inter-view inconsistency when applied to high-resolution multi-view driving scenes. To address this, we propose DriveTok, an efficient 3D driving scene tokenizer for unified multi-view reconstruction and understanding. DriveTok first obtains semantically rich visual features from vision foundation models and then transforms them into the scene tokens with 3D deformable cross-attention. For decoding, we employ a multi-view transformer to reconstruct multi-view features from the scene tokens and use multiple heads to obtain RGB, depth, and semantic reconstructions. We also add a 3D head directly on the scene tokens for 3D semantic occupancy prediction for better spatial awareness. With the multiple training objectives, DriveTok learns unified scene tokens that integrate semantic, geometric, and textural information for efficient multi-view tokenization. Extensive experiments on the widely used nuScenes dataset demonstrate that the scene tokens from DriveTok perform well on image reconstruction, semantic segmentation, depth prediction, and 3D occupancy prediction tasks.