Fully Unified Motion Planning for End-to-End Autonomous Driving
作者: Lin Liu, Caiyan Jia, Ziying Song, Hongyu Pan, Bencheng Liao, Wenchao Sun, Yongchang Zhang, Lei Yang, Yandan Luo
分类: cs.CV
发布日期: 2025-04-17 (更新: 2025-07-15)
💡 一句话要点
提出FUMP,通过统一学习自车与他车数据,提升端到端自动驾驶运动规划性能。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 端到端自动驾驶 运动规划 轨迹预测 多智能体学习 跨视角学习
📋 核心要点
- 现有端到端自动驾驶方法依赖单一自车数据,限制了策略多样性和场景覆盖。
- FUMP通过联合学习自车与他车数据,利用概率分解和两阶段框架解决跨视角和模态缺失问题。
- FUMP引入等变上下文共享适配器(ECSA),提升场景表示的跨车辆泛化能力。
📝 摘要(中文)
当前端到端自动驾驶方法通常仅从单一自车采集的专家规划数据中学习,严重限制了可学习驾驶策略和场景的多样性。然而,一个关键但被忽视的事实是,在任何驾驶场景中,其他车辆的多条高质量轨迹与特定自车的轨迹共存。现有方法未能充分利用这一宝贵资源,错失了通过学习其他专家的经验来提高模型性能(包括长尾场景)的重要机会。直观地说,联合学习自车和其他车辆的专家数据有利于规划任务。然而,这种联合学习面临两个关键挑战:(1)车辆之间不同的场景观察视角阻碍了场景特征表示的跨车辆对齐;(2)与其他车辆数据相比,自车数据中缺少部分模态(例如,车辆状态)引入了学习偏差。为了应对这些挑战,我们提出FUMP(完全统一运动规划),这是一个新颖的两阶段轨迹生成框架。基于概率分解,我们将规划任务建模为运动预测的一个专门子任务。具体来说,我们的方法将轨迹规划解耦为两个阶段。在第一阶段,一个共享解码器联合生成两个任务的初始轨迹。在第二阶段,模型根据自车的状态执行特定于规划的细化。两个阶段之间的过渡由一个专门在自车数据上训练的状态预测器桥接。为了解决观察视角上的跨车辆差异,我们在第一阶段之前提出了一个等变上下文共享适配器(ECSA),以提高场景表示的跨车辆泛化能力。
🔬 方法详解
问题定义:现有端到端自动驾驶方法主要依赖于单一自车的数据进行训练,导致模型学习到的驾驶策略和场景泛化能力受限。忽略了其他车辆的轨迹数据,未能充分利用场景中蕴含的丰富信息。此外,不同车辆的视角差异以及数据模态的缺失(例如,他车缺少详细状态信息)也给联合学习带来了挑战。
核心思路:FUMP的核心思路是将运动规划任务视为运动预测的一个特例,通过概率分解将规划任务解耦为两个阶段:初始轨迹生成和规划特定细化。利用共享解码器联合生成自车和他车的初始轨迹,从而实现跨车辆数据的统一学习。通过状态预测器桥接两个阶段,并使用等变上下文共享适配器(ECSA)解决跨视角差异问题。
技术框架:FUMP是一个两阶段的轨迹生成框架。第一阶段,ECSA模块首先对输入场景进行处理,提高跨车辆的特征泛化能力。然后,一个共享解码器联合生成自车和他车的初始轨迹。第二阶段,状态预测器根据第一阶段的输出预测自车状态,并以此为条件进行规划特定的轨迹细化。整个框架通过端到端的方式进行训练。
关键创新:FUMP的关键创新在于:1) 提出了一种统一的框架,能够同时利用自车和他车的轨迹数据进行运动规划;2) 引入了等变上下文共享适配器(ECSA),有效解决了跨车辆视角差异带来的问题;3) 通过概率分解和两阶段设计,将复杂的规划任务分解为更易于学习的子任务。
关键设计:ECSA模块的设计基于等变神经网络,能够保证特征表示在不同视角下的不变性。状态预测器采用回归模型,根据第一阶段的轨迹预测自车状态。损失函数包括轨迹预测损失、状态预测损失以及正则化项。共享解码器和规划特定细化模块采用Transformer结构,能够有效捕捉轨迹之间的时序依赖关系。
🖼️ 关键图片
📊 实验亮点
论文提出的FUMP方法在多个自动驾驶数据集上进行了评估,实验结果表明,FUMP能够显著提升运动规划的性能,尤其是在复杂场景和长尾场景下。与现有方法相比,FUMP在轨迹预测精度和安全性方面均取得了显著提升。具体性能数据未知,但强调了显著提升。
🎯 应用场景
FUMP具有广泛的应用前景,可用于提升自动驾驶系统在复杂交通场景下的运动规划能力,尤其是在长尾场景和 corner case 的处理上。该方法可以提高自动驾驶系统的安全性和可靠性,并有望加速自动驾驶技术的商业化落地。此外,该方法也可以应用于其他需要多智能体协作的场景,例如机器人编队控制等。
📄 摘要(原文)
Current end-to-end autonomous driving methods typically learn only from expert planning data collected from a single ego vehicle, severely limiting the diversity of learnable driving policies and scenarios. However, a critical yet overlooked fact is that in any driving scenario, multiple high-quality trajectories from other vehicles coexist with a specific ego vehicle's trajectory. Existing methods fail to fully exploit this valuable resource, missing important opportunities to improve the models' performance (including long-tail scenarios) through learning from other experts. Intuitively, Jointly learning from both ego and other vehicles' expert data is beneficial for planning tasks. However, this joint learning faces two critical challenges. (1) Different scene observation perspectives across vehicles hinder inter-vehicle alignment of scene feature representations; (2) The absence of partial modality in other vehicles' data (e.g., vehicle states) compared to ego-vehicle data introduces learning bias. To address these challenges, we propose FUMP (Fully Unified Motion Planning), a novel two-stage trajectory generation framework. Building upon probabilistic decomposition, we model the planning task as a specialized subtask of motion prediction. Specifically, our approach decouples trajectory planning into two stages. In Stage 1, a shared decoder jointly generates initial trajectories for both tasks. In Stage 2, the model performs planning-specific refinement conditioned on an ego-vehicle's state. The transition between the two stages is bridged by a state predictor trained exclusively on ego-vehicle data. To address the cross-vehicle discrepancy in observational perspectives, we propose an Equivariant Context-Sharing Adapter (ECSA) before Stage 1 for improving cross-vehicle generalization of scene representations.