Unified Driving Tokens: Representation- and Geometry-Guided Discrete Tokenizer for Driving World Models and Planning

作者: Ziyang Yao, Zeyu Zhu, YunCheng Jiang, Zibin Guo, Huijing Zhao

分类: cs.CV

发布日期: 2026-06-01

💡 一句话要点

提出基于表征和几何引导的离散Token化器，用于自动驾驶世界模型和规划

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 自动驾驶 世界模型 离散Token化 表征学习 几何信息 运动规划 深度估计

📋 核心要点

现有Token化器主要针对图像生成进行优化，忽略了自动驾驶决策对Token解码的需求，导致生成容易但解码困难。
本文提出一种表征引导和几何增强的Token化器，通过联合监督学习离散Token，同时考虑表征一致性和几何信息。
实验表明，该方法在重建保真度、表征一致性、规划性能和生成质量方面均有提升，验证了Token化器的有效性。

📝 摘要（中文）

本文提出了一种表征引导和几何增强的Token化器，用于自动驾驶中的基于Token的世界建模和规划。该Token化器通过联合监督学习离散Token，利用特征解码将离散瓶颈与冻结的DINO特征空间对齐，并通过RGB重建以及感知和对抗损失来保持外观。为了注入几何状态相关线索，在训练期间添加了相邻帧深度和相对位姿监督，并通过多码本量化来稳定联合目标。在NAVSIM上的实验表明，该方法提高了重建保真度和表征一致性，在固定解码器下具有竞争力的规划性能，并在匹配设置下具有更好的生成质量。

🔬 方法详解

问题定义：现有基于Token的自动驾驶世界模型和规划方法，其Token化器通常继承自图像生成领域，主要优化像素重建，忽略了驾驶决策对Token解码的特殊需求。这导致生成的Token虽然易于重建图像，但难以用于下游的规划任务，存在生成和解码之间的gap。

核心思路：本文的核心思路是设计一种同时考虑表征一致性和几何信息的Token化器。通过将离散瓶颈与预训练的DINO特征空间对齐，保证Token的表征能力；同时，通过引入相邻帧深度和相对位姿监督，注入几何状态相关线索，使Token包含更丰富的驾驶场景信息。

技术框架：该方法的技术框架主要包括以下几个模块：1) RGB重建模块，用于保持外观信息；2) 特征解码模块，用于将离散瓶颈与DINO特征空间对齐；3) 深度和相对位姿监督模块，用于注入几何信息；4) 多码本量化模块，用于稳定联合目标。整体流程是，输入图像经过Token化器得到离散Token，然后通过解码器重建图像、DINO特征、深度和相对位姿，并计算相应的损失函数进行优化。

关键创新：该方法最重要的技术创新点在于同时考虑表征一致性和几何信息，并将其融入到Token化器的训练过程中。与传统的基于像素重建的Token化器相比，该方法生成的Token更适合用于自动驾驶的下游任务，如规划和世界建模。

关键设计：在关键设计方面，采用了以下策略：1) 使用预训练的DINO特征作为监督信号，保证Token的表征能力；2) 引入相邻帧深度和相对位姿监督，注入几何信息；3) 使用多码本量化，提高Token的多样性，并稳定联合目标的训练；4) 使用感知损失和对抗损失，提高图像重建的质量。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在NAVSIM数据集上取得了显著的性能提升。具体来说，该方法提高了重建保真度和表征一致性，在固定解码器下具有竞争力的规划性能，并在匹配设置下具有更好的生成质量。这些结果验证了该方法在自动驾驶场景下的有效性。

🎯 应用场景

该研究成果可应用于自动驾驶领域，用于构建更有效的世界模型和规划系统。通过学习更具表征性和几何信息的离散Token，可以提高自动驾驶系统的感知、预测和决策能力，从而提升驾驶安全性、舒适性和效率。此外，该方法也可推广到其他需要理解场景几何信息的机器人应用中。

📄 摘要（原文）

Discrete visual tokens should provide a compact representation for both token-based world modeling and planning in autonomous driving. However, most tokenizers are inherited from image generation and are optimized mainly for pixel reconstruction, which may leave a gap between what is easy to generate and what is useful to decode for driving decisions. We present a representation-guided and geometry-enhanced tokenizer that learns discrete tokens under joint supervision. The tokenizer aligns its discrete bottleneck with a frozen DINO feature space through feature decoding, while preserving appearance via RGB reconstruction with perceptual and adversarial losses. To inject geometric state-related cues, we add adjacent-frame depth and relative-pose supervision during training and stabilize joint objectives with multi-codebook quantization. We evaluate the same learned tokens with a lightweight planning readout and a GPT-style next-token world model. Experiments on NAVSIM show improved reconstruction fidelity and representation consistency, competitive planning performance under a fixed decoder, and better generative quality under matched settings.

Unified Driving Tokens: Representation- and Geometry-Guided Discrete Tokenizer for Driving World Models and Planning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理