Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models

📄 arXiv: 2409.16663v4 📥 PDF

作者: Alexander Popov, Alperen Degirmenci, David Wehr, Shashank Hegde, Ryan Oldja, Alexey Kamenev, Bertrand Douillard, David Nistér, Urs Muller, Ruchi Bhargava, Stan Birchfield, Nikolai Smolyanskiy

分类: cs.RO, cs.CV, cs.LG, eess.SY

发布日期: 2024-09-25 (更新: 2025-05-01)

备注: 8 pages, 6 figures, updated in March 2025, original published in September 2024, for ICRA 2025 submission, for associated video file, see https://youtu.be/7m3bXzlVQvU


💡 一句话要点

提出基于隐空间生成世界模型的模仿学习方法,缓解自动驾驶中的协变量偏移问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自动驾驶 模仿学习 协变量偏移 世界模型 Transformer

📋 核心要点

  1. 自动驾驶模仿学习面临协变量偏移问题,即训练和实际环境存在差异,导致策略泛化能力下降。
  2. 利用隐空间生成世界模型,策略学习在训练时从错误中恢复,从而适应训练分布之外的扰动。
  3. 引入基于Transformer的感知编码器,使用多视角交叉注意力和学习的场景查询,提升感知能力。

📝 摘要(中文)

本文提出了一种利用隐空间生成世界模型来解决自动驾驶中协变量偏移问题的方法。世界模型是一个神经网络,能够根据过去的状态和动作预测智能体的下一个状态。通过在训练期间利用世界模型,驾驶策略能够有效地缓解协变量偏移,而无需过多的训练数据。在端到端训练中,我们的策略学习如何通过与人类演示中观察到的状态对齐来从错误中恢复,从而在运行时可以从训练分布之外的扰动中恢复。此外,我们还引入了一种新颖的基于Transformer的感知编码器,该编码器采用多视角交叉注意力和学习的场景查询。我们展示了定性和定量的结果,证明了在CARLA模拟器中闭环测试中相对于现有技术的显著改进,并展示了处理CARLA和NVIDIA的DRIVE Sim中扰动的能力。

🔬 方法详解

问题定义:自动驾驶模仿学习旨在让车辆模仿人类驾驶员的行为。然而,训练数据通常是在特定环境中收集的,与实际驾驶环境存在差异,这种差异被称为协变量偏移。现有的模仿学习方法难以应对这种偏移,导致车辆在实际环境中表现不佳。

核心思路:本文的核心思路是利用生成世界模型来缓解协变量偏移。世界模型能够预测车辆在给定状态和动作下的未来状态。通过在训练过程中使用世界模型,策略可以学习如何从错误中恢复,并适应训练数据中未见过的状态。这种方法使得策略能够更好地泛化到实际驾驶环境。

技术框架:该方法采用端到端的训练框架,包括感知编码器、世界模型和策略网络。感知编码器负责从传感器数据中提取特征表示。世界模型根据当前状态和动作预测下一个状态。策略网络根据当前状态输出动作。整个框架通过模仿学习进行训练,目标是最小化策略网络输出的动作与人类驾驶员动作之间的差异。

关键创新:本文的关键创新在于将隐空间生成世界模型应用于模仿学习,并设计了一种新颖的基于Transformer的感知编码器。隐空间世界模型能够学习到环境的抽象表示,从而更好地泛化到不同的环境。基于Transformer的感知编码器采用多视角交叉注意力和学习的场景查询,能够有效地融合来自不同传感器的信息,并提取场景的关键特征。

关键设计:感知编码器使用Transformer结构,输入是多视角图像和激光雷达数据。多视角交叉注意力机制用于融合来自不同视角的信息。学习的场景查询用于提取场景的关键特征。世界模型是一个变分自编码器(VAE),将状态编码到隐空间,并从隐空间解码出下一个状态。策略网络是一个多层感知机(MLP),输入是当前状态,输出是动作。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在CARLA模拟器中取得了显著的性能提升,超过了现有的模仿学习方法。在闭环测试中,该方法能够更好地应对各种扰动,例如交通拥堵、恶劣天气和传感器故障。此外,该方法还在NVIDIA的DRIVE Sim中进行了测试,证明了其在不同模拟器中的泛化能力。定量结果显示,该方法在驾驶距离、碰撞次数和偏离车道次数等指标上均优于基线方法。

🎯 应用场景

该研究成果可应用于各种自动驾驶场景,例如城市道路、高速公路和越野环境。通过缓解协变量偏移,该方法可以提高自动驾驶系统的安全性和可靠性,降低事故风险。此外,该方法还可以用于训练自动驾驶模拟器,从而降低开发和测试成本。未来,该技术有望促进自动驾驶技术的广泛应用。

📄 摘要(原文)

We propose the use of latent space generative world models to address the covariate shift problem in autonomous driving. A world model is a neural network capable of predicting an agent's next state given past states and actions. By leveraging a world model during training, the driving policy effectively mitigates covariate shift without requiring an excessive amount of training data. During end-to-end training, our policy learns how to recover from errors by aligning with states observed in human demonstrations, so that at runtime it can recover from perturbations outside the training distribution. Additionally, we introduce a novel transformer-based perception encoder that employs multi-view cross-attention and a learned scene query. We present qualitative and quantitative results, demonstrating significant improvements upon prior state of the art in closed-loop testing in the CARLA simulator, as well as showing the ability to handle perturbations in both CARLA and NVIDIA's DRIVE Sim.