LEAD: Minimizing Learner-Expert Asymmetry in End-to-End Driving

📄 arXiv: 2512.20563v1 📥 PDF

作者: Long Nguyen, Micha Fauth, Bernhard Jaeger, Daniel Dauner, Maximilian Igl, Andreas Geiger, Kashyap Chitta

分类: cs.CV, cs.AI, cs.LG, cs.RO

发布日期: 2025-12-23

🔗 代码/项目: GITHUB


💡 一句话要点

LEAD:最小化端到端驾驶中学习器-专家不对称性,提升CARLA模拟器驾驶性能

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 端到端驾驶 模仿学习 专家-学习器不对称 CARLA模拟器 自动驾驶 TransFuser 感知监督

📋 核心要点

  1. 现有模仿学习方法在模拟驾驶中面临专家数据与学生观测不对称的挑战,专家拥有更高的可见性和确定性。
  2. 论文提出LEAD框架,通过缩小专家和学生之间的差距来解决不对称问题,从而提升模仿学习的性能。
  3. TransFuser v6在CARLA基准测试中取得state-of-the-art结果,并在NAVSIM和Waymo数据集上验证了sim-to-real的有效性。

📝 摘要(中文)

模拟器可以生成几乎无限的驾驶数据,但模拟环境中的模仿学习策略仍然难以实现鲁棒的闭环性能。本文研究了专家演示和基于传感器的学生观测之间的不对称性如何限制模仿学习的有效性。专家具有更高的可见性(例如,忽略遮挡)和更低的不确定性(例如,了解其他车辆的行为),这使得学生难以可靠地模仿。此外,学生模型在测试时仅通过单个目标点来指定导航意图。研究表明,这些不对称性会显著限制CARLA中的驾驶性能,并提出了解决这些问题的有效干预措施。通过缩小专家和学生之间的差距,TransFuser v6 (TFv6) 学生策略在所有主要的公开CARLA闭环基准测试中都达到了新的state-of-the-art,在Bench2Drive上达到95 DS,并在Longest6 v2和Town13上实现了超过两倍的性能提升。此外,通过将来自数据集的感知监督集成到共享的sim-to-real流水线中,在NAVSIM和Waymo Vision-Based End-to-End驾驶基准测试中也显示出一致的收益。代码、数据和模型已公开。

🔬 方法详解

问题定义:现有端到端驾驶模仿学习方法在模拟环境中训练时,面临专家(提供演示数据)和学习器(实际驾驶策略)之间存在显著不对称的问题。专家通常拥有全局信息,例如无遮挡的场景视图和精确的车辆行为预测,而学习器只能依赖有限的传感器数据,导致学习策略难以泛化到真实环境。这种不对称性限制了模仿学习在复杂驾驶场景中的性能。

核心思路:论文的核心思路是最小化专家和学习器之间的不对称性,使学习器能够更好地模仿专家的行为。具体而言,通过对专家数据进行处理,使其更接近学习器可获得的观测,并增强学习器对环境的感知能力,从而提高模仿学习的鲁棒性和泛化能力。

技术框架:整体框架基于TransFuser模型,并进行了改进。主要包括以下几个模块:1) 感知模块:使用传感器数据(如摄像头图像、激光雷达点云)进行环境感知;2) 行为预测模块:预测其他车辆的行为;3) 决策模块:根据感知信息和行为预测结果,生成车辆的控制指令(如油门、刹车、转向)。论文通过修改专家数据和优化感知模块来缩小专家-学习器差距。

关键创新:论文的关键创新在于系统性地分析并解决了端到端驾驶模仿学习中的专家-学习器不对称问题。通过引入针对性的数据处理和模型改进策略,显著提升了模仿学习的性能。此外,论文还验证了这些策略在sim-to-real迁移中的有效性。

关键设计:论文的关键设计包括:1) 对专家数据进行遮挡模拟,使其更接近学习器在真实场景中的观测;2) 引入感知监督,增强学习器对环境的感知能力;3) 使用TransFuser模型,该模型能够有效地融合来自不同传感器的信息;4) 优化损失函数,鼓励学习器模仿专家的行为,并惩罚偏离行为。

🖼️ 关键图片

fig_0
img_1

📊 实验亮点

TransFuser v6 (TFv6) 在CARLA闭环基准测试中取得了显著的性能提升,在Bench2Drive上达到95 DS,并在Longest6 v2和Town13上实现了超过两倍的性能提升。此外,在NAVSIM和Waymo Vision-Based End-to-End驾驶基准测试中也显示出一致的收益,验证了该方法在sim-to-real迁移中的有效性。

🎯 应用场景

该研究成果可应用于自动驾驶系统的开发,特别是在模拟环境中进行策略训练,并迁移到真实车辆上。通过缩小模拟环境和真实环境之间的差距,可以降低自动驾驶系统的开发成本和风险,加速自动驾驶技术的落地。此外,该方法也可用于其他机器人控制任务,提高机器人在复杂环境中的适应性和鲁棒性。

📄 摘要(原文)

Simulators can generate virtually unlimited driving data, yet imitation learning policies in simulation still struggle to achieve robust closed-loop performance. Motivated by this gap, we empirically study how misalignment between privileged expert demonstrations and sensor-based student observations can limit the effectiveness of imitation learning. More precisely, experts have significantly higher visibility (e.g., ignoring occlusions) and far lower uncertainty (e.g., knowing other vehicles' actions), making them difficult to imitate reliably. Furthermore, navigational intent (i.e., the route to follow) is under-specified in student models at test time via only a single target point. We demonstrate that these asymmetries can measurably limit driving performance in CARLA and offer practical interventions to address them. After careful modifications to narrow the gaps between expert and student, our TransFuser v6 (TFv6) student policy achieves a new state of the art on all major publicly available CARLA closed-loop benchmarks, reaching 95 DS on Bench2Drive and more than doubling prior performances on Longest6~v2 and Town13. Additionally, by integrating perception supervision from our dataset into a shared sim-to-real pipeline, we show consistent gains on the NAVSIM and Waymo Vision-Based End-to-End driving benchmarks. Our code, data, and models are publicly available at https://github.com/autonomousvision/lead.