From Imitation to Exploration: End-to-end Autonomous Driving based on World Model
作者: Yueyuan Li, Mingyang Jiang, Songan Zhang, Wei Yuan, Chunxiang Wang, Ming Yang
分类: cs.AI, cs.LG, cs.RO
发布日期: 2024-10-03 (更新: 2025-04-20)
备注: 12 pages, 4 figures, 3 tables; T-ITS under review
🔗 代码/项目: GITHUB
💡 一句话要点
RAMBLE:基于世界模型的端到端自动驾驶,融合模仿学习与强化学习
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 端到端自动驾驶 世界模型 强化学习 模仿学习 Transformer CARLA 决策规划
📋 核心要点
- 现有端到端自动驾驶方法依赖模仿学习,难以应对训练集外的场景,尤其是在高动态和交互密集的交通环境中。
- RAMBLE融合模仿学习和强化学习的优势,利用世界模型进行环境建模,并通过强化学习优化驾驶策略,提升适应性和鲁棒性。
- RAMBLE在CARLA Leaderboard 1.0和2.0上取得了优异的成绩,验证了其在复杂交通场景下的有效性,并即将开源。
📝 摘要(中文)
本文提出了一种名为RAMBLE的基于世界模型的端到端强化学习方法,用于自动驾驶决策。RAMBLE通过非对称变分自编码器从RGB图像和激光雷达数据中提取环境上下文信息,并使用基于Transformer的架构捕获交通参与者的动态变化。然后,应用Actor-Critic结构的强化学习算法,基于当前状态和动态的潜在特征来推导驾驶策略。为了加速策略收敛并确保训练稳定,我们引入了一种训练方案,该方案使用模仿学习初始化策略网络,并采用KL损失和软更新机制来平滑地将模型从模仿学习过渡到强化学习。RAMBLE在CARLA Leaderboard 1.0上实现了最先进的路线完成率,并在CARLA Leaderboard 2.0上完成了所有38个场景,证明了其在处理复杂和动态交通场景中的有效性。该模型将在论文接收后开源。
🔬 方法详解
问题定义:现有端到端自动驾驶方法主要依赖模仿学习,虽然训练速度快,但泛化能力不足,难以应对复杂和动态的交通场景,尤其是在训练数据中未曾出现过的corner case。因此,如何提升端到端自动驾驶模型在复杂环境下的适应性和鲁棒性是一个关键问题。
核心思路:RAMBLE的核心思路是将模仿学习和强化学习相结合,利用模仿学习快速学习驾驶策略的初始状态,然后通过强化学习与环境交互,不断优化策略,提升模型的泛化能力和鲁棒性。同时,引入世界模型来学习环境的动态变化,从而更好地预测未来状态,辅助决策。
技术框架:RAMBLE的整体架构包含以下几个主要模块:1) 非对称变分自编码器:从RGB图像和激光雷达数据中提取环境上下文信息。2) 基于Transformer的动态模型:捕获交通参与者的动态变化。3) Actor-Critic强化学习算法:基于当前状态和动态的潜在特征来推导驾驶策略。4) 训练方案:使用模仿学习初始化策略网络,并采用KL损失和软更新机制,平滑地将模型从模仿学习过渡到强化学习。
关键创新:RAMBLE的关键创新在于融合了模仿学习和强化学习,并引入了世界模型来学习环境的动态变化。这种融合的方式既能保证训练速度,又能提升模型的泛化能力和鲁棒性。此外,使用非对称变分自编码器和Transformer来提取环境信息和建模动态变化,也提升了模型的感知能力。
关键设计:在训练过程中,使用模仿学习预训练Actor网络,然后使用Actor-Critic算法进行强化学习。KL散度损失用于约束强化学习策略与模仿学习策略的差异,防止策略偏离过远。软更新机制用于平滑更新Critic网络,保证训练的稳定性。具体的参数设置和网络结构细节在论文中进行了详细描述,但目前未知。
🖼️ 关键图片
📊 实验亮点
RAMBLE在CARLA Leaderboard 1.0上实现了最先进的路线完成率,并在CARLA Leaderboard 2.0上完成了所有38个场景。这些结果表明,RAMBLE在处理复杂和动态交通场景方面具有显著的优势。具体的性能数据和对比基线在论文中进行了详细展示,但目前未知具体的提升幅度。
🎯 应用场景
RAMBLE的研究成果可应用于各种自动驾驶场景,包括城市道路、高速公路和越野环境。该方法能够提升自动驾驶系统在复杂和动态环境下的安全性和可靠性,降低事故风险,提高交通效率。未来,该研究还可以扩展到其他机器人领域,例如无人机和移动机器人。
📄 摘要(原文)
In recent years, end-to-end autonomous driving architectures have gained increasing attention due to their advantage in avoiding error accumulation. Most existing end-to-end autonomous driving methods are based on Imitation Learning (IL), which can quickly derive driving strategies by mimicking expert behaviors. However, IL often struggles to handle scenarios outside the training dataset, especially in high-dynamic and interaction-intensive traffic environments. In contrast, Reinforcement Learning (RL)-based driving models can optimize driving decisions through interaction with the environment, improving adaptability and robustness. To leverage the strengths of both IL and RL, we propose RAMBLE, an end-to-end world model-based RL method for driving decision-making. RAMBLE extracts environmental context information from RGB images and LiDAR data through an asymmetrical variational autoencoder. A transformer-based architecture is then used to capture the dynamic transitions of traffic participants. Next, an actor-critic structure reinforcement learning algorithm is applied to derive driving strategies based on the latent features of the current state and dynamics. To accelerate policy convergence and ensure stable training, we introduce a training scheme that initializes the policy network using IL, and employs KL loss and soft update mechanisms to smoothly transition the model from IL to RL. RAMBLE achieves state-of-the-art performance in route completion rate on the CARLA Leaderboard 1.0 and completes all 38 scenarios on the CARLA Leaderboard 2.0, demonstrating its effectiveness in handling complex and dynamic traffic scenarios. The model will be open-sourced upon paper acceptance at https://github.com/SCP-CN-001/ramble to support further research and development in autonomous driving.