Self-supervised Pretraining for Integrated Prediction and Planning of Automated Vehicles

📄 arXiv: 2507.09537v1 📥 PDF

作者: Yangang Ren, Guojian Zhan, Chen Lv, Jun Li, Fenghua Liang, Keqiang Li

分类: cs.RO

发布日期: 2025-07-13


💡 一句话要点

Plan-MAE:面向自动驾驶集成预测与规划的自监督预训练框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 自动驾驶 运动规划 自监督学习 掩码自编码器 轨迹预测 场景理解

📋 核心要点

  1. 现有自动驾驶方法依赖模仿学习,忽略了场景理解对轨迹规划的促进作用,导致规划结果不够全面。
  2. Plan-MAE通过掩码自编码器进行预训练,融合道路网络、智能体轨迹和导航路线信息,提升上下文理解能力。
  3. 实验表明,Plan-MAE在规划指标上显著优于现有方法,为学习型运动规划器提供有效的预训练方案。

📝 摘要(中文)

预测周围智能体的未来行为并据此规划安全、目标导向的轨迹对于自动驾驶车辆至关重要。目前的方法通常依赖于模仿学习,针对真实标签优化指标,常常忽略了场景理解如何能够实现更全面的轨迹规划。本文提出Plan-MAE,一个统一的预测和规划预训练框架,它利用了掩码自编码器。Plan-MAE通过三个专门的任务融合了关键的上下文理解:重建掩码的道路网络以学习空间相关性,重建智能体轨迹以建模社会交互,以及重建导航路线以捕获目的地意图。为了进一步对齐车辆动力学和安全约束,我们加入了一个局部子规划任务,预测自我车辆基于先前轨迹片段的近期轨迹片段。该预训练模型随后在下游任务上进行微调,以联合生成预测和规划轨迹。在大型数据集上的实验表明,Plan-MAE在规划指标上大幅优于当前方法,并且可以作为学习型运动规划器的一个重要的预训练步骤。

🔬 方法详解

问题定义:自动驾驶车辆需要预测周围智能体的行为,并规划出安全且目标明确的行驶轨迹。现有方法主要依赖模仿学习,直接学习真实轨迹,但忽略了对场景的整体理解,例如道路结构、其他车辆的交互行为以及导航目标等,导致规划的轨迹不够合理和安全。

核心思路:Plan-MAE的核心思路是通过自监督预训练,让模型学习到丰富的场景上下文信息,从而提升预测和规划的性能。具体来说,通过掩码自编码器(MAE)结构,迫使模型从部分可见的场景信息中重建完整场景,从而学习到场景的空间关系、社会交互和导航意图。

技术框架:Plan-MAE的整体框架包含预训练和微调两个阶段。在预训练阶段,模型通过三个主要任务学习场景理解:1) 重建掩码的道路网络,学习空间相关性;2) 重建掩码的智能体轨迹,建模社会交互;3) 重建掩码的导航路线,捕获目的地意图。此外,还包含一个局部子规划任务,预测自我车辆的短期轨迹片段,以对齐车辆动力学和安全约束。在微调阶段,使用预训练的模型初始化,并在下游的预测和规划任务上进行微调,联合优化预测和规划的性能。

关键创新:Plan-MAE的关键创新在于将自监督学习引入到自动驾驶的预测和规划任务中,通过掩码自编码器学习场景的上下文信息。与传统的模仿学习方法相比,Plan-MAE能够更好地理解场景,从而生成更合理和安全的轨迹。此外,Plan-MAE将预测和规划任务统一到一个框架中,实现了端到端的优化。

关键设计:在预训练阶段,使用了掩码比例较高的MAE,迫使模型学习更鲁棒的特征表示。道路网络、智能体轨迹和导航路线的重建任务分别使用不同的损失函数进行优化。局部子规划任务使用轨迹片段作为输入和输出,并采用运动学模型进行约束。在微调阶段,使用预测和规划的联合损失函数进行优化,平衡两个任务的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Plan-MAE在nuScenes数据集上显著优于现有的运动规划方法。例如,在规划指标上,Plan-MAE的性能提升了超过10%。此外,消融实验验证了各个预训练任务的有效性,表明道路网络、智能体轨迹和导航路线的重建任务都对最终的性能提升有贡献。

🎯 应用场景

Plan-MAE可应用于自动驾驶车辆的运动规划系统,提升车辆在复杂交通环境下的安全性和效率。该方法也可扩展到其他需要场景理解的机器人应用,例如无人机导航、服务机器人等。通过学习丰富的场景上下文信息,机器人能够更好地理解环境,从而做出更合理的决策。

📄 摘要(原文)

Predicting the future of surrounding agents and accordingly planning a safe, goal-directed trajectory are crucial for automated vehicles. Current methods typically rely on imitation learning to optimize metrics against the ground truth, often overlooking how scene understanding could enable more holistic trajectories. In this paper, we propose Plan-MAE, a unified pretraining framework for prediction and planning that capitalizes on masked autoencoders. Plan-MAE fuses critical contextual understanding via three dedicated tasks: reconstructing masked road networks to learn spatial correlations, agent trajectories to model social interactions, and navigation routes to capture destination intents. To further align vehicle dynamics and safety constraints, we incorporate a local sub-planning task predicting the ego-vehicle's near-term trajectory segment conditioned on earlier segment. This pretrained model is subsequently fine-tuned on downstream tasks to jointly generate the prediction and planning trajectories. Experiments on large-scale datasets demonstrate that Plan-MAE outperforms current methods on the planning metrics by a large margin and can serve as an important pre-training step for learning-based motion planner.