Beyond Imitation: Learning Safe End-to-End Autonomous Driving from Hard Negatives
作者: Junli Wang, Zhihua Hua, Xueyi Liu, Zebin Xing, Haochen Tian, Kun Ma, Hangjun Ye, Guang Chen, Long Chen, Qichao Zhang
分类: cs.RO, cs.CV
发布日期: 2026-05-19
💡 一句话要点
BeyondDrive:基于难负样本学习的安全端到端自动驾驶
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动驾驶 模仿学习 安全驾驶 负样本学习 流匹配
📋 核心要点
- 现有模仿学习方法忽略了轨迹安全性差异,即使模仿损失相近的轨迹也可能导致不同的安全结果。
- BeyondDrive通过生成专家轨迹附近的负样本,并利用排斥损失函数来学习安全边界,从而显式建模安全性。
- BeyondDrive在多个基准测试中超越了现有方法,并在不同架构和数据集上展现了良好的泛化能力。
📝 摘要(中文)
现有的端到端自动驾驶模仿学习方法主要通过最小化与专家轨迹的几何偏差来学习。这种范式隐含地假设空间邻近性意味着行为安全,导致了关键的目标不匹配:具有几乎相同的模仿损失的轨迹可能表现出截然不同的安全结果,其中一个仍然可恢复而另一个导致碰撞。为了解决这个限制,我们提出了BeyondDrive,一个故障感知模仿学习框架,它联合学习成功的和失败的驾驶行为。首先,我们引入了一个基于流匹配的负轨迹生成器,它合成了安全关键但专家近似的轨迹,从而能够显式地建模安全不对称性。其次,我们开发了一种多样性感知采样策略,以减轻模式崩溃并提高负轨迹生成期间各种故障模式的覆盖率。第三,我们提出了一种排斥距离损失,它同时吸引预测朝向专家演示,同时排斥它们远离硬负轨迹,从而在轨迹空间中建立判别性安全边界。应用于单模基线Latent TransFuser,BeyondDrive在NAVSIMv1闭环基准测试中实现了89.7 PDMS,优于先前的最先进方法。此外,BeyondDrive可以有效地推广到不同的自动驾驶架构,包括多模态规划器,并且进一步证明了在HUGSIM基准测试上的强大零样本可迁移性。
🔬 方法详解
问题定义:现有端到端自动驾驶模仿学习方法主要依赖于模仿专家轨迹,通过最小化几何偏差进行学习。这种方法假设空间上的接近性等同于行为上的安全性,但实际情况并非如此。即使两条轨迹在模仿损失上非常接近,一条可能安全可恢复,而另一条则可能导致碰撞。因此,如何解决模仿学习中安全目标与实际安全结果之间的不匹配是本论文要解决的核心问题。
核心思路:BeyondDrive的核心思路是引入“失败感知”的学习机制,即不仅学习成功的驾驶行为,也学习失败的驾驶行为。通过显式地建模安全与不安全之间的边界,使模型能够区分即使在空间上接近但安全性不同的轨迹。具体来说,通过生成与专家轨迹相似但会导致失败的“硬负样本”,并利用这些负样本来训练模型,从而提高模型的安全性。
技术框架:BeyondDrive框架主要包含三个核心模块:1) 基于流匹配的负轨迹生成器:用于生成与专家轨迹相似但会导致失败的负样本轨迹。2) 多样性感知采样策略:用于缓解负样本生成过程中的模式崩溃问题,确保生成的负样本具有多样性,覆盖不同的失败模式。3) 排斥距离损失:一种新的损失函数,它同时吸引模型的预测结果靠近专家轨迹,并排斥其远离负样本轨迹,从而在轨迹空间中建立清晰的安全边界。整体流程是,首先利用负轨迹生成器和多样性感知采样策略生成高质量的负样本,然后利用排斥距离损失训练自动驾驶模型。
关键创新:BeyondDrive的关键创新在于引入了“失败感知”的学习范式,通过显式地建模安全与不安全之间的边界来提高自动驾驶系统的安全性。与传统的模仿学习方法只关注模仿成功轨迹不同,BeyondDrive同时学习成功和失败的驾驶行为,从而能够更好地应对复杂和不确定的驾驶环境。此外,提出的基于流匹配的负轨迹生成器和排斥距离损失也是重要的技术创新。
关键设计:在负轨迹生成器方面,使用了基于流匹配的方法,确保生成的负样本与专家轨迹在分布上接近,但又具有导致失败的特性。多样性感知采样策略通过最大化负样本之间的距离来保证负样本的多样性。排斥距离损失的设计同时考虑了吸引项和排斥项,通过调整两者的权重来平衡模仿学习和安全性学习。具体的损失函数形式为:L = L_imitation + λ * L_repulsion,其中L_imitation是传统的模仿学习损失,L_repulsion是排斥距离损失,λ是权重系数。
🖼️ 关键图片
📊 实验亮点
BeyondDrive在NAVSIMv1闭环基准测试中取得了显著的性能提升,PDMS指标达到了89.7,超越了之前的state-of-the-art方法。此外,该方法还展现了良好的泛化能力,可以应用于不同的自动驾驶架构,包括多模态规划器。在HUGSIM基准测试中,BeyondDrive也表现出了强大的零样本可迁移性,证明了其在不同数据集上的适应能力。
🎯 应用场景
BeyondDrive的研究成果可以广泛应用于自动驾驶领域,尤其是在提高自动驾驶系统的安全性和可靠性方面。该方法可以用于训练更安全的端到端自动驾驶模型,减少事故发生的概率。此外,该方法还可以应用于自动驾驶仿真测试,生成更具挑战性的测试场景,从而更有效地评估自动驾驶系统的性能。未来,该研究可以扩展到其他机器人领域,例如无人机、无人船等。
📄 摘要(原文)
Existing imitation learning methods for end-to-end autonomous driving predominantly learn from successful demonstrations by minimizing geometric deviations from expert trajectories. This paradigm implicitly assumes that spatial proximity implies behavioral safety, leading to a critical objective mismatch: trajectories with nearly identical imitation losses may exhibit drastically different safety outcomes, where one remains recoverable while the other results in collision. To address this limitation, we propose BeyondDrive, a failure-aware imitation learning framework that jointly learns from successful and failed driving behaviors. First, we introduce a flow matching-based negative trajectory generator that synthesizes safety-critical yet expert-proximate trajectories, enabling explicit modeling of safety asymmetry. Second, we develop a diversity-aware sampling strategy that mitigates mode collapse and improves coverage of diverse failure modes during negative trajectory generation. Third, we propose a Repulsive Distance Loss that simultaneously attracts predictions toward expert demonstrations while repelling them from hard negative trajectories, thereby establishing discriminative safety boundaries in trajectory space. Applied to the uni-modal baseline Latent TransFuser, BeyondDrive achieves 89.7 PDMS on the NAVSIMv1 closed-loop benchmark, outperforming prior state-of-the-art methods. Moreover, BeyondDrive generalizes effectively across different autonomous driving architectures, including multi-modal planners, and further demonstrates strong zero-shot transferability on the HUGSIM benchmark.