Generalized Trajectory Scoring for End-to-end Multimodal Planning

📄 arXiv: 2506.06664v1 📥 PDF

作者: Zhenxin Li, Wenhao Yao, Zi Wang, Xinglong Sun, Joshua Chen, Nadine Chang, Maying Shen, Zuxuan Wu, Shiyi Lan, Jose M. Alvarez

分类: cs.RO, cs.CV

发布日期: 2025-06-07

备注: The 1st place solution of the End-to-end Driving Track at the CVPR 2025 Autonomous Grand Challenge

🔗 代码/项目: GITHUB


💡 一句话要点

提出GTRS,结合粗细粒度轨迹评估,提升端到端多模态规划的泛化能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态规划 轨迹评分 扩散模型 泛化能力 自动驾驶 传感器增强 端到端学习

📋 核心要点

  1. 现有轨迹评分器在静态轨迹集和动态生成轨迹集上泛化能力不足,静态方法缺乏细粒度调整,动态方法难以捕捉全局分布。
  2. GTRS结合扩散模型生成细粒度轨迹提议,通过词汇表泛化技术增强评分器鲁棒性,并利用传感器增强提升域外泛化能力。
  3. GTRS在Navsim v2挑战赛中获胜,即使在传感器数据质量不高的情况下,也能达到接近使用ground-truth感知方法的性能。

📝 摘要(中文)

端到端多模态规划是自动驾驶领域一个很有前景的方向,它能够基于多个候选轨迹进行决策。一个关键组成部分是鲁棒的轨迹评分器,用于从这些候选轨迹中选择最优轨迹。现有的轨迹评分器要么专注于对大量静态轨迹进行评分,要么对少量动态生成的轨迹进行评分,这两种方法在泛化性方面都存在显著的局限性。静态词汇表提供有效的粗粒度离散化,但难以进行细粒度的调整,而动态提议提供详细的精度,但无法捕获更广泛的轨迹分布。为了克服这些挑战,我们提出了GTRS(Generalized Trajectory Scoring),一个统一的端到端多模态规划框架,它结合了粗粒度和细粒度的轨迹评估。GTRS包含三个互补的创新点:(1)一个基于扩散的轨迹生成器,产生多样化的细粒度提议;(2)一种词汇表泛化技术,通过dropout正则化在超密集轨迹集上训练评分器,使其能够在较小的子集上进行鲁棒的推理;(3)一种传感器增强策略,增强了域外泛化能力,同时结合了用于关键轨迹判别的精细化训练。作为Navsim v2挑战赛的获胜方案,GTRS即使在次优传感器输入下也表现出卓越的性能,接近依赖于ground-truth感知的特权方法。

🔬 方法详解

问题定义:现有端到端多模态规划方法中的轨迹评分器,要么依赖于预定义的静态轨迹库,要么依赖于动态生成的轨迹。静态轨迹库虽然覆盖范围广,但缺乏细粒度的调整能力,难以适应复杂场景;动态生成的轨迹虽然精度高,但难以覆盖整个轨迹空间,容易陷入局部最优。因此,如何设计一个既能覆盖广泛轨迹分布,又能进行细粒度调整的轨迹评分器,是本文要解决的核心问题。

核心思路:本文的核心思路是将粗粒度的轨迹覆盖和细粒度的轨迹调整相结合。首先,利用扩散模型生成多样化的轨迹提议,保证轨迹覆盖的范围。然后,通过词汇表泛化技术,训练一个鲁棒的轨迹评分器,使其能够对这些轨迹提议进行准确的评估。最后,利用传感器增强策略,提高模型在不同传感器条件下的泛化能力。

技术框架:GTRS的整体框架包含三个主要模块:1) 基于扩散模型的轨迹生成器:用于生成多样化的轨迹提议。2) 轨迹评分器:用于评估轨迹提议的质量。3) 传感器增强模块:用于提高模型在不同传感器条件下的泛化能力。整个流程是:首先,扩散模型生成轨迹提议;然后,轨迹评分器对这些提议进行评分;最后,选择得分最高的轨迹作为最终的规划结果。传感器增强模块在训练阶段使用,用于提高模型的鲁棒性。

关键创新:GTRS的关键创新在于以下三个方面:1) 提出了一种基于扩散模型的轨迹生成器,能够生成多样化的轨迹提议。2) 提出了一种词汇表泛化技术,能够训练一个鲁棒的轨迹评分器。3) 提出了一种传感器增强策略,能够提高模型在不同传感器条件下的泛化能力。与现有方法相比,GTRS能够更好地平衡轨迹覆盖范围和精度,从而提高端到端多模态规划的性能。

关键设计:扩散模型采用标准的DDPM架构,训练目标是最小化轨迹的负对数似然。词汇表泛化技术通过dropout正则化,防止模型过拟合于特定的轨迹子集。传感器增强策略通过随机替换或扰动传感器输入,模拟不同的传感器条件。轨迹评分器采用Transformer架构,输入包括轨迹、传感器数据和环境信息,输出是轨迹的得分。损失函数采用交叉熵损失,用于区分最优轨迹和其他轨迹。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

GTRS在Navsim v2挑战赛中取得了第一名的成绩,证明了其优越的性能。即使在传感器输入质量不高的情况下,GTRS也能达到接近使用ground-truth感知方法的性能,表明其具有很强的鲁棒性和泛化能力。实验结果表明,GTRS能够有效地提高端到端多模态规划的性能。

🎯 应用场景

GTRS可应用于自动驾驶、机器人导航等领域,提升复杂环境下的决策规划能力。该研究有助于提高自动驾驶系统在各种传感器条件下的鲁棒性和安全性,并可推广到其他需要多模态规划的场景,例如无人机配送、智能仓储等。

📄 摘要(原文)

End-to-end multi-modal planning is a promising paradigm in autonomous driving, enabling decision-making with diverse trajectory candidates. A key component is a robust trajectory scorer capable of selecting the optimal trajectory from these candidates. While recent trajectory scorers focus on scoring either large sets of static trajectories or small sets of dynamically generated ones, both approaches face significant limitations in generalization. Static vocabularies provide effective coarse discretization but struggle to make fine-grained adaptation, while dynamic proposals offer detailed precision but fail to capture broader trajectory distributions. To overcome these challenges, we propose GTRS (Generalized Trajectory Scoring), a unified framework for end-to-end multi-modal planning that combines coarse and fine-grained trajectory evaluation. GTRS consists of three complementary innovations: (1) a diffusion-based trajectory generator that produces diverse fine-grained proposals; (2) a vocabulary generalization technique that trains a scorer on super-dense trajectory sets with dropout regularization, enabling its robust inference on smaller subsets; and (3) a sensor augmentation strategy that enhances out-of-domain generalization while incorporating refinement training for critical trajectory discrimination. As the winning solution of the Navsim v2 Challenge, GTRS demonstrates superior performance even with sub-optimal sensor inputs, approaching privileged methods that rely on ground-truth perception. Code will be available at https://github.com/NVlabs/GTRS.