CaRL: Learning Scalable Planning Policies with Simple Rewards
作者: Bernhard Jaeger, Daniel Dauner, Jens Beißwenger, Simon Gerstenecker, Kashyap Chitta, Andreas Geiger
分类: cs.LG, cs.AI, cs.RO
发布日期: 2025-04-24 (更新: 2025-08-20)
备注: Accepted at the Conference on Robot Learning 2025
💡 一句话要点
CaRL:通过简单奖励学习可扩展的规划策略,应用于自动驾驶。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 自动驾驶 路径规划 奖励函数设计 PPO算法 分布式训练 可扩展性
📋 核心要点
- 现有自动驾驶规划方法依赖规则,难以应对复杂长尾场景,且强化学习方法常使用复杂奖励函数,限制了可扩展性。
- 提出一种基于简单奖励的强化学习方法CaRL,主要优化路线完成度,并对违规行为进行惩罚,提升训练效率。
- 实验表明,CaRL在CARLA和nuPlan数据集上均取得了显著的性能提升,且训练速度更快,验证了其有效性和可扩展性。
📝 摘要(中文)
本文研究了强化学习(RL)在自动驾驶中用于特权规划的应用。目前最先进的方法是基于规则的,但这些方法无法扩展到长尾场景。另一方面,强化学习具有可扩展性,并且不像模仿学习那样存在误差累积。现有的驾驶强化学习方法使用复杂的塑造奖励,这些奖励汇总了多个单独的奖励,例如进度、位置或方向奖励。我们表明,当小批量大小增加时,PPO无法优化这些奖励的流行版本,这限制了这些方法的可扩展性。因此,我们提出了一种新的奖励设计,主要基于优化一个直观的奖励项:路线完成。违规行为通过终止episode或乘法降低路线完成度来惩罚。我们发现,当使用我们的简单奖励进行训练时,PPO可以很好地扩展到更大的小批量大小,甚至可以提高性能。使用大型小批量大小的训练可以通过分布式数据并行实现高效扩展。我们在CARLA中将PPO扩展到3亿个样本,在nuPlan中扩展到5亿个样本,仅使用一个8-GPU节点。由此产生的模型在CARLA longest6 v2基准测试中实现了64 DS,大大优于其他具有更复杂奖励的强化学习方法。只需对CARLA中的使用进行最小的调整,相同的方法就是nuPlan上最好的基于学习的方法。在Val14基准测试中,它在非反应式交通中得分91.3,在反应式交通中得分90.6,同时比之前的工作快一个数量级。
🔬 方法详解
问题定义:自动驾驶场景下的路径规划问题,目标是训练一个能够安全、高效地完成导航任务的智能体。现有方法,特别是基于规则的方法,难以泛化到各种复杂的交通状况和长尾场景。而现有的强化学习方法,通常采用复杂的奖励函数(例如,结合了进度、位置、方向等多个指标),导致训练不稳定,难以扩展到大规模数据集和分布式训练。
核心思路:论文的核心思路是简化奖励函数,只使用一个主要的奖励项:路线完成度。通过优化路线完成度,引导智能体朝着目标前进。同时,对违规行为(例如,碰撞、偏离车道)进行惩罚,以保证安全性。这种简单奖励的设计,使得训练更加稳定,更容易扩展到大规模数据集。
技术框架:整体框架采用标准的强化学习流程,使用PPO算法作为基础。主要模块包括:环境交互模块(CARLA或nuPlan仿真环境)、策略网络模块(负责生成动作)、价值网络模块(负责评估状态价值)、奖励计算模块(计算简单奖励)。训练过程采用分布式数据并行,利用多个GPU加速训练。
关键创新:最重要的创新点在于奖励函数的设计。与传统的复杂奖励函数不同,CaRL只使用一个简单的奖励项:路线完成度。这种简化的奖励函数,避免了多个奖励项之间的相互干扰,使得训练更加稳定,更容易收敛。此外,通过对违规行为进行惩罚,保证了智能体的安全性。
关键设计:奖励函数的设计是关键。路线完成度的计算方式是:当前位置到终点的距离与初始位置到终点的距离之差。违规行为的惩罚方式有两种:一是直接终止episode,二是乘法降低路线完成度。PPO算法采用标准的参数设置,策略网络和价值网络采用多层感知机结构。训练过程中,使用较大的mini-batch size(例如,300M样本),以提高训练效率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CaRL在CARLA longest6 v2基准测试中取得了64 DS的成绩,显著优于其他使用复杂奖励函数的强化学习方法。在nuPlan Val14基准测试中,CaRL在非反应式交通中得分91.3,在反应式交通中得分90.6,同时训练速度比之前的工作快一个数量级,证明了其优越的性能和效率。
🎯 应用场景
该研究成果可应用于自动驾驶车辆的路径规划和决策控制,尤其是在复杂交通环境和长尾场景下。通过学习可扩展的规划策略,可以提高自动驾驶系统的安全性和可靠性,并降低开发和维护成本。未来,该方法可以进一步扩展到其他机器人导航领域。
📄 摘要(原文)
We investigate reinforcement learning (RL) for privileged planning in autonomous driving. State-of-the-art approaches for this task are rule-based, but these methods do not scale to the long tail. RL, on the other hand, is scalable and does not suffer from compounding errors like imitation learning. Contemporary RL approaches for driving use complex shaped rewards that sum multiple individual rewards, \eg~progress, position, or orientation rewards. We show that PPO fails to optimize a popular version of these rewards when the mini-batch size is increased, which limits the scalability of these approaches. Instead, we propose a new reward design based primarily on optimizing a single intuitive reward term: route completion. Infractions are penalized by terminating the episode or multiplicatively reducing route completion. We find that PPO scales well with higher mini-batch sizes when trained with our simple reward, even improving performance. Training with large mini-batch sizes enables efficient scaling via distributed data parallelism. We scale PPO to 300M samples in CARLA and 500M samples in nuPlan with a single 8-GPU node. The resulting model achieves 64 DS on the CARLA longest6 v2 benchmark, outperforming other RL methods with more complex rewards by a large margin. Requiring only minimal adaptations from its use in CARLA, the same method is the best learning-based approach on nuPlan. It scores 91.3 in non-reactive and 90.6 in reactive traffic on the Val14 benchmark while being an order of magnitude faster than prior work.