NTR: Neural Token Reconstruction for Scene Token Bottleneck in End-to-End Driving

📄 arXiv: 2605.31116v1 📥 PDF

作者: Jiahui Li, Jiawei Sun, Zixiang Ren, Ming Liu, Jiamin Shi, Ruiteng Zhao, Zhiyang Liu, Liying Liu, Zuoguan Wang, Kaidi Yang

分类: cs.CV, cs.RO

发布日期: 2026-05-29


💡 一句话要点

提出神经令牌重构(NTR)方法,增强端到端自动驾驶场景令牌的视觉表征能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 端到端自动驾驶 场景令牌 神经令牌重构 自监督学习 视觉表征学习

📋 核心要点

  1. 现有端到端自动驾驶方法依赖场景令牌进行规划,但缺乏对场景令牌视觉信息的有效约束。
  2. NTR通过自蒸馏掩码潜在重构,迫使场景令牌保留更丰富且冗余更少的视觉信息,提升表征能力。
  3. 实验表明,NTR在多个自动驾驶基准上取得了SOTA性能,并提升了场景令牌的有效秩。

📝 摘要(中文)

本文提出了一种神经令牌重构(NTR)框架,用于直接约束无感知端到端驾驶中的紧凑场景令牌瓶颈。NTR引入了一种自蒸馏掩码潜在重构目标,仅使用紧凑的场景令牌作为重构记忆来重构掩码的patch级别潜在特征。这迫使重构梯度完全通过场景令牌瓶颈,鼓励场景令牌保留更丰富和更少冗余的视觉表征以供规划。此外,本文还引入了从基础模型注释中获得的语义先验,作为一种弱语义接口,将重构目标偏向于与驾驶相关的结构,而无需引入显式的感知头。所有辅助重构组件在推理时都会被移除,保持部署的规划器不变。NTR在三个公共自动驾驶基准测试中实现了最先进的性能,包括在Waymo E2E上达到8.0461 RFS,在NavSim1&2上达到94.1 PDMS / 90.9 EPDMS。学习到的场景令牌表现出较低的成对冗余和较高的有效秩,表明有效的瓶颈监督可以提高紧凑视觉表征学习和规划性能。

🔬 方法详解

问题定义:端到端自动驾驶方法通常将图像patch令牌压缩为紧凑的场景令牌,作为规划器的输入。然而,这些场景令牌仅受到规划目标的监督,缺乏对编码视觉信息的直接约束,导致视觉表征能力受限。现有方法难以保证场景令牌包含足够且有效的视觉信息,从而影响规划性能。

核心思路:NTR的核心思想是通过引入一个自监督的重构任务,直接约束场景令牌的表征能力。具体来说,NTR使用场景令牌作为记忆,重构被掩码的patch级别潜在特征。这种方式迫使场景令牌尽可能地保留原始图像的信息,从而提升其视觉表征能力。同时,NTR还引入了语义先验,引导重构过程关注与驾驶相关的结构。

技术框架:NTR框架主要包含以下几个模块:1) 图像编码器:将原始图像编码为patch级别的潜在特征。2) 场景令牌编码器:将patch级别的潜在特征压缩为紧凑的场景令牌。3) 掩码模块:随机掩码部分patch级别的潜在特征。4) 重构模块:使用场景令牌作为记忆,重构被掩码的patch级别的潜在特征。5) 语义先验模块:引入语义先验,引导重构过程。整个框架采用端到端的方式进行训练,并在推理时移除重构相关的模块。

关键创新:NTR的关键创新在于引入了自蒸馏掩码潜在重构任务,直接约束场景令牌的表征能力。与现有方法相比,NTR不需要显式的感知头,而是通过自监督的方式学习更有效的视觉表征。此外,NTR还引入了语义先验,进一步提升了场景令牌的表征能力。

关键设计:NTR的关键设计包括:1) 掩码策略:采用随机掩码策略,增加重构的难度。2) 重构损失函数:使用均方误差(MSE)作为重构损失函数。3) 语义先验:使用预训练的基础模型(如CLIP)提取图像的语义特征,并将其作为重构的指导。4) 网络结构:图像编码器和场景令牌编码器可以使用Transformer等网络结构。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

NTR在Waymo E2E数据集上取得了8.0461 RFS的SOTA性能,在NavSim1&2数据集上分别取得了94.1 PDMS和90.9 EPDMS的SOTA性能。实验结果表明,NTR能够有效提升场景令牌的表征能力,降低冗余,提高有效秩,从而提升规划性能。

🎯 应用场景

NTR方法可应用于各种端到端自动驾驶系统,尤其是在感知模块受限或需要紧凑视觉表征的场景下。该方法能够提升自动驾驶系统的规划性能和安全性,并可扩展到其他需要视觉信息瓶颈的任务中,例如机器人导航和视觉问答。

📄 摘要(原文)

Recent perception-free end-to-end (E2E) autonomous driving methods bypass explicit perception outputs by compressing dense image patch tokens into compact scene tokens for downstream trajectory generation and scoring. While these scene tokens form a compact visual bottleneck for the planner, they receive supervision solely from the planning objective, providing limited constraints on the encoded visual information. To address this limitation, we introduce Neural Token Reconstruction (NTR), a representation learning framework to directly constrain the compact scene-token bottleneck in perception-free driving. NTR introduces a self-distillation masked latent reconstruction objective that reconstructs masked patch-level latent features using only compact scene tokens as reconstruction memory. This forces reconstruction gradients to pass exclusively through the scene-token bottleneck, encouraging scene tokens to preserve richer and less redundant visual representations for planning. We further introduce semantic priors derived from foundation-model annotations as a weak semantic interface biasing reconstruction targets toward driving-related structures without introducing explicit perception heads. All auxiliary reconstruction components are removed at inference time, leaving the deployed planner unchanged. NTR achieves state-of-the-art performance on three public autonomous driving benchmarks, including 8.0461 RFS on Waymo E2E and 94.1 PDMS / 90.9 EPDMS on NavSim1&2. The learned scene tokens exhibit lower pairwise redundancy and higher effective rank, indicating that effective bottleneck supervision improves both compact visual representation learning and planning performance.