CIMRL: Combining IMitation and Reinforcement Learning for Safe Autonomous Driving

📄 arXiv: 2406.08878v4 📥 PDF

作者: Jonathan Booher, Khashayar Rohanimanesh, Junhong Xu, Vladislav Isenbaev, Ashwin Balakrishna, Ishan Gupta, Wei Liu, Aleksandr Petiushko

分类: cs.LG

发布日期: 2024-06-13 (更新: 2024-11-11)


💡 一句话要点

CIMRL:结合模仿学习与强化学习的安全自动驾驶方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自动驾驶 模仿学习 强化学习 安全约束 行为克隆

📋 核心要点

  1. 现有自动驾驶方法依赖大量数据,但难以应对长尾场景和误差累积。
  2. CIMRL结合模仿学习和强化学习,利用模仿先验和安全约束训练安全驾驶策略。
  3. CIMRL无需复杂奖励设计,提升闭环性能,并在模拟和真实世界测试中表现出色。

📝 摘要(中文)

现代自动驾驶方法严重依赖于模仿学习,通过大量人类驾驶数据进行训练。然而,这些方法需要大量昂贵的数据收集,并且在安全处理长尾场景和随时间推移的误差累积方面面临挑战。同时,纯强化学习(RL)方法在稀疏、受约束和难以定义的奖励设置(如自动驾驶)中可能无法学习到高性能策略。这些挑战使得在自动驾驶汽车等安全关键应用中部署纯克隆或纯RL策略具有挑战性。本文提出了一种结合模仿学习和强化学习(CIMRL)的方法——一种安全的强化学习框架,通过利用模仿运动先验和安全约束,能够在模拟环境中训练驾驶策略。CIMRL不需要广泛的奖励规范,并改进了纯克隆方法的闭环行为。通过结合RL和模仿学习,我们证明了我们的方法在闭环模拟和真实世界驾驶基准测试中取得了最先进的结果。

🔬 方法详解

问题定义:自动驾驶任务中,仅依赖模仿学习难以泛化到长尾场景,且存在误差累积问题;而纯强化学习在稀疏奖励和安全约束下难以有效学习。现有方法难以兼顾安全性和高性能,需要大量人工干预或复杂的奖励函数设计。

核心思路:CIMRL的核心在于结合模仿学习的先验知识和强化学习的探索能力,利用模仿学习提供初始策略,并通过强化学习在安全约束下进行优化。这种结合方式既能加速学习过程,又能保证策略的安全性。

技术框架:CIMRL框架包含以下主要模块:1) 模仿学习模块,用于从人类驾驶数据中学习初始策略;2) 强化学习模块,使用PPO等算法在模拟环境中进行训练;3) 安全约束模块,用于限制策略的行为,避免出现危险动作;4) 模仿先验模块,在强化学习过程中引入模仿学习的知识,引导策略向更安全的区域探索。整体流程是先通过模仿学习得到一个初步可行的策略,然后利用强化学习在安全约束下进行优化,并结合模仿先验来提高学习效率和安全性。

关键创新:CIMRL的关键创新在于将模仿学习和强化学习有机结合,并引入安全约束和模仿先验。与传统的模仿学习方法相比,CIMRL能够更好地泛化到未见过的场景,并具有更强的鲁棒性。与纯强化学习方法相比,CIMRL能够更快地学习到高性能策略,并保证策略的安全性。

关键设计:CIMRL的关键设计包括:1) 使用行为克隆(Behavior Cloning)作为模仿学习的初始策略;2) 使用近端策略优化(PPO)作为强化学习算法;3) 定义安全约束,例如限制车辆的加速度和转向角;4) 设计模仿先验,例如在强化学习的奖励函数中加入模仿学习的损失函数,引导策略向模仿学习的行为靠近。

🖼️ 关键图片

fig_0

📊 实验亮点

CIMRL在闭环模拟和真实世界驾驶基准测试中取得了最先进的结果。具体而言,CIMRL在CARLA模拟器上实现了比现有方法更高的驾驶成功率和更低的碰撞率。在真实世界驾驶测试中,CIMRL也表现出良好的性能,能够安全地完成各种驾驶任务,例如变道、超车和避障。

🎯 应用场景

CIMRL可应用于各种自动驾驶场景,例如城市道路、高速公路和越野环境。该方法能够提高自动驾驶系统的安全性、鲁棒性和泛化能力,降低事故风险,并减少对人工干预的依赖。此外,CIMRL还可以应用于机器人导航、无人机控制等领域,具有广泛的应用前景。

📄 摘要(原文)

Modern approaches to autonomous driving rely heavily on learned components trained with large amounts of human driving data via imitation learning. However, these methods require large amounts of expensive data collection and even then face challenges with safely handling long-tail scenarios and compounding errors over time. At the same time, pure Reinforcement Learning (RL) methods can fail to learn performant policies in sparse, constrained, and challenging-to-define reward settings such as autonomous driving. Both of these challenges make deploying purely cloned or pure RL policies in safety critical applications such as autonomous vehicles challenging. In this paper we propose Combining IMitation and Reinforcement Learning (CIMRL) approach - a safe reinforcement learning framework that enables training driving policies in simulation through leveraging imitative motion priors and safety constraints. CIMRL does not require extensive reward specification and improves on the closed loop behavior of pure cloning methods. By combining RL and imitation, we demonstrate that our method achieves state-of-the-art results in closed loop simulation and real world driving benchmarks.