SoftCTRL: Soft conservative KL-control of Transformer Reinforcement Learning for Autonomous Driving
作者: Minh Tri Huynh, Duc Dung Nguyen
分类: cs.RO, cs.AI
发布日期: 2024-10-30
备注: submitted to IEEE Open Journal of Intelligent Transportation Systems
💡 一句话要点
提出SoftCTRL,通过软保守KL控制Transformer强化学习,提升自动驾驶鲁棒性。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 自动驾驶 强化学习 模仿学习 Transformer 运动规划 KL散度 鲁棒性
📋 核心要点
- 模仿学习在自动驾驶运动规划中应用广泛,但其安全性和可靠性存在不足,难以应对复杂场景。
- 提出SoftCTRL方法,通过隐式熵-KL控制,结合模仿学习和强化学习,降低策略的过度保守性。
- 在模拟城市环境中验证,SoftCTRL显著提升了自动驾驶系统的鲁棒性,故障率降低超过17%。
📝 摘要(中文)
近年来,城市自动驾驶车辆(SDV)的运动规划因其复杂的道路交互而成为一个热门问题。许多方法依赖于通过模仿学习(IL)处理的大规模人工采样数据。虽然有效,但仅靠IL无法充分解决安全性和可靠性问题。将IL与强化学习(RL)相结合,通过在RL损失中添加RL和IL策略之间的KL散度可以缓解IL的弱点,但会因IL的协变量偏移而导致过度保守。为了解决这个限制,我们引入了一种将IL与RL相结合的方法,该方法使用隐式熵-KL控制,提供了一种简单的方法来减少过度保守的特性。特别地,我们验证了来自未见数据集的不同具有挑战性的模拟城市场景,表明虽然IL可以在模仿任务中表现良好,但我们提出的方法显著提高了鲁棒性(故障减少超过17%),并生成了类似人类的驾驶行为。
🔬 方法详解
问题定义:论文旨在解决自动驾驶运动规划中,单纯使用模仿学习(IL)方法存在的安全性和可靠性问题。现有方法,如直接使用IL,虽然可以学习人类驾驶行为,但在未见过的复杂场景中泛化能力较弱,容易出现安全问题。而将IL与强化学习(RL)结合,并使用KL散度约束RL策略与IL策略的方法,又容易因为IL的协变量偏移导致策略过度保守,影响驾驶效率。
核心思路:论文的核心思路是通过引入一个隐式的熵-KL控制机制,来软化保守的KL散度约束。这种方法允许RL策略在探索过程中,适度偏离IL策略,从而避免过度保守,同时又不会完全失去IL提供的先验知识。通过控制熵,可以鼓励策略探索更多可能性,提高鲁棒性。
技术框架:整体框架包含一个基于Transformer的强化学习模型,该模型接收环境状态作为输入,输出车辆的动作。训练过程结合了模仿学习和强化学习。模仿学习部分使用人类驾驶数据进行预训练,强化学习部分则通过与环境交互来优化策略。关键在于,RL损失函数中包含一个隐式的熵-KL控制项,该项动态地调整KL散度的权重,从而平衡模仿学习和强化学习之间的关系。
关键创新:论文的关键创新在于提出了SoftCTRL,即软保守KL控制。与传统的固定KL散度约束不同,SoftCTRL通过隐式地控制策略的熵,来动态调整KL散度的权重。这种方法能够有效地缓解因IL的协变量偏移导致的过度保守问题,同时保持策略的安全性。
关键设计:论文使用Transformer作为强化学习模型的主体结构,Transformer强大的序列建模能力能够更好地捕捉自动驾驶场景中的时序依赖关系。损失函数包含三部分:RL损失(例如,奖励最大化),IL损失(模仿人类驾驶行为),以及SoftCTRL损失(隐式熵-KL控制)。SoftCTRL损失的具体形式未知,但可以推测其与策略的熵有关,并通过调整熵来控制KL散度的权重。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SoftCTRL方法在未见过的模拟城市环境中,显著提高了自动驾驶系统的鲁棒性,故障率降低超过17%。同时,该方法生成的驾驶行为更接近人类驾驶员,提升了驾驶的舒适性和安全性。这些结果验证了SoftCTRL方法在解决自动驾驶运动规划问题上的有效性。
🎯 应用场景
该研究成果可应用于提升自动驾驶系统的安全性和可靠性,尤其是在复杂的城市交通环境中。通过SoftCTRL方法,自动驾驶车辆能够更好地应对未知的交通状况,减少事故发生率,并提供更舒适的驾驶体验。此外,该方法也可以推广到其他需要模仿学习和强化学习相结合的机器人控制任务中。
📄 摘要(原文)
In recent years, motion planning for urban self-driving cars (SDV) has become a popular problem due to its complex interaction of road components. To tackle this, many methods have relied on large-scale, human-sampled data processed through Imitation learning (IL). Although effective, IL alone cannot adequately handle safety and reliability concerns. Combining IL with Reinforcement learning (RL) by adding KL divergence between RL and IL policy to the RL loss can alleviate IL's weakness but suffer from over-conservation caused by covariate shift of IL. To address this limitation, we introduce a method that combines IL with RL using an implicit entropy-KL control that offers a simple way to reduce the over-conservation characteristic. In particular, we validate different challenging simulated urban scenarios from the unseen dataset, indicating that although IL can perform well in imitation tasks, our proposed method significantly improves robustness (over 17\% reduction in failures) and generates human-like driving behavior.