Unified Driving Tokens: Representation- and Geometry-Guided Discrete Tokenizer for Driving World Models and Planning
作者: Ziyang Yao, Zeyu Zhu, YunCheng Jiang, Zibin Guo, Huijing Zhao
分类: cs.CV
发布日期: 2026-06-01
💡 一句话要点
提出基于表征和几何引导的离散Token化器,用于自动驾驶世界模型和规划
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 自动驾驶 世界模型 离散Token化 表征学习 几何信息 运动规划 深度估计
📋 核心要点
- 现有Token化器主要针对图像生成进行优化,忽略了自动驾驶决策对Token解码的需求,导致生成容易但解码困难。
- 本文提出一种表征引导和几何增强的Token化器,通过联合监督学习离散Token,同时考虑表征一致性和几何信息。
- 实验表明,该方法在重建保真度、表征一致性、规划性能和生成质量方面均有提升,验证了Token化器的有效性。
📝 摘要(中文)
本文提出了一种表征引导和几何增强的Token化器,用于自动驾驶中的基于Token的世界建模和规划。该Token化器通过联合监督学习离散Token,利用特征解码将离散瓶颈与冻结的DINO特征空间对齐,并通过RGB重建以及感知和对抗损失来保持外观。为了注入几何状态相关线索,在训练期间添加了相邻帧深度和相对位姿监督,并通过多码本量化来稳定联合目标。在NAVSIM上的实验表明,该方法提高了重建保真度和表征一致性,在固定解码器下具有竞争力的规划性能,并在匹配设置下具有更好的生成质量。
🔬 方法详解
问题定义:现有基于Token的自动驾驶世界模型和规划方法,其Token化器通常继承自图像生成领域,主要优化像素重建,忽略了驾驶决策对Token解码的特殊需求。这导致生成的Token虽然易于重建图像,但难以用于下游的规划任务,存在生成和解码之间的gap。
核心思路:本文的核心思路是设计一种同时考虑表征一致性和几何信息的Token化器。通过将离散瓶颈与预训练的DINO特征空间对齐,保证Token的表征能力;同时,通过引入相邻帧深度和相对位姿监督,注入几何状态相关线索,使Token包含更丰富的驾驶场景信息。
技术框架:该方法的技术框架主要包括以下几个模块:1) RGB重建模块,用于保持外观信息;2) 特征解码模块,用于将离散瓶颈与DINO特征空间对齐;3) 深度和相对位姿监督模块,用于注入几何信息;4) 多码本量化模块,用于稳定联合目标。整体流程是,输入图像经过Token化器得到离散Token,然后通过解码器重建图像、DINO特征、深度和相对位姿,并计算相应的损失函数进行优化。
关键创新:该方法最重要的技术创新点在于同时考虑表征一致性和几何信息,并将其融入到Token化器的训练过程中。与传统的基于像素重建的Token化器相比,该方法生成的Token更适合用于自动驾驶的下游任务,如规划和世界建模。
关键设计:在关键设计方面,采用了以下策略:1) 使用预训练的DINO特征作为监督信号,保证Token的表征能力;2) 引入相邻帧深度和相对位姿监督,注入几何信息;3) 使用多码本量化,提高Token的多样性,并稳定联合目标的训练;4) 使用感知损失和对抗损失,提高图像重建的质量。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在NAVSIM数据集上取得了显著的性能提升。具体来说,该方法提高了重建保真度和表征一致性,在固定解码器下具有竞争力的规划性能,并在匹配设置下具有更好的生成质量。这些结果验证了该方法在自动驾驶场景下的有效性。
🎯 应用场景
该研究成果可应用于自动驾驶领域,用于构建更有效的世界模型和规划系统。通过学习更具表征性和几何信息的离散Token,可以提高自动驾驶系统的感知、预测和决策能力,从而提升驾驶安全性、舒适性和效率。此外,该方法也可推广到其他需要理解场景几何信息的机器人应用中。
📄 摘要(原文)
Discrete visual tokens should provide a compact representation for both token-based world modeling and planning in autonomous driving. However, most tokenizers are inherited from image generation and are optimized mainly for pixel reconstruction, which may leave a gap between what is easy to generate and what is useful to decode for driving decisions. We present a representation-guided and geometry-enhanced tokenizer that learns discrete tokens under joint supervision. The tokenizer aligns its discrete bottleneck with a frozen DINO feature space through feature decoding, while preserving appearance via RGB reconstruction with perceptual and adversarial losses. To inject geometric state-related cues, we add adjacent-frame depth and relative-pose supervision during training and stabilize joint objectives with multi-codebook quantization. We evaluate the same learned tokens with a lightweight planning readout and a GPT-style next-token world model. Experiments on NAVSIM show improved reconstruction fidelity and representation consistency, competitive planning performance under a fixed decoder, and better generative quality under matched settings.