CarPlanner: Consistent Auto-regressive Trajectory Planning for Large-scale Reinforcement Learning in Autonomous Driving
作者: Dongkun Zhang, Jiaming Liang, Ke Guo, Sha Lu, Qi Wang, Rong Xiong, Zhenwei Miao, Yue Wang
分类: cs.RO, cs.CV, cs.LG
发布日期: 2025-02-27 (更新: 2025-03-24)
备注: CVPR 2025
💡 一句话要点
CarPlanner:基于一致性自回归强化学习的大规模自动驾驶轨迹规划
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 自动驾驶 轨迹规划 强化学习 自回归模型 一致性约束
📋 核心要点
- 现有基于强化学习的自动驾驶轨迹规划方法在训练效率和处理大规模真实场景方面存在不足。
- CarPlanner采用自回归结构和一致性机制,结合专家引导的奖励函数和不变视角模块,提升训练效率和策略性能。
- 实验表明,CarPlanner在nuPlan数据集上超越了基于强化学习、模仿学习和规则的现有最佳方法。
📝 摘要(中文)
本文提出了一种名为CarPlanner的一致性自回归轨迹规划器,用于解决自动驾驶中大规模强化学习(RL)训练效率低下的问题。CarPlanner利用RL生成多模态轨迹,其自回归结构能够高效地进行大规模RL训练。通过引入一致性机制,CarPlanner能够维持时间步之间的一致性,从而确保策略学习的稳定性。此外,CarPlanner采用了一种生成-选择框架,结合专家引导的奖励函数和不变视角模块,简化了RL训练并提升了策略性能。实验结果表明,该RL框架有效地解决了训练效率和性能提升的挑战,使得CarPlanner成为自动驾驶轨迹规划的一个有前景的解决方案。据我们所知,我们首次证明了基于RL的规划器在具有挑战性的大规模真实世界数据集nuPlan上超越了基于IL和规则的SOTA方法。我们提出的CarPlanner在该数据集上超越了基于RL、IL和规则的SOTA方法。
🔬 方法详解
问题定义:自动驾驶轨迹规划旨在复杂环境中生成安全高效的行驶轨迹。现有的基于强化学习的轨迹规划方法,在大规模真实世界场景中,面临训练效率低下和难以保证策略稳定性的问题。这些方法难以有效利用数据,并且在时间维度上缺乏一致性约束,导致学习到的策略泛化能力不足。
核心思路:CarPlanner的核心思路是利用自回归结构来提高强化学习的训练效率,并通过引入一致性约束来保证策略学习的稳定性。自回归结构允许模型逐步生成轨迹,从而更好地利用历史信息。一致性约束则确保生成的轨迹在时间维度上保持连贯,避免出现突变或不合理的行为。
技术框架:CarPlanner的整体框架包含以下几个主要模块:1) 自回归轨迹生成器:基于强化学习策略,逐步生成轨迹点。2) 一致性模块:用于评估和增强轨迹在时间维度上的一致性。3) 专家引导的奖励函数:结合专家知识,设计奖励函数,引导强化学习过程。4) 不变视角模块:提取场景的不变特征,提高策略的泛化能力。5) 生成-选择框架:生成多个候选轨迹,然后选择最优轨迹。
关键创新:CarPlanner的关键创新在于将自回归结构和一致性约束引入到强化学习轨迹规划中。自回归结构提高了训练效率,一致性约束保证了策略的稳定性。此外,专家引导的奖励函数和不变视角模块进一步提升了策略的性能和泛化能力。与现有方法相比,CarPlanner能够更好地处理大规模真实世界场景,并取得更好的性能。
关键设计:CarPlanner的关键设计包括:1) 自回归轨迹生成器的网络结构,例如使用Transformer或RNN等模型。2) 一致性模块的具体实现方式,例如使用时间差分或动态时间规整等方法。3) 专家引导的奖励函数的具体形式,例如结合安全、效率和舒适度等指标。4) 不变视角模块的设计,例如使用卷积神经网络提取场景的语义特征。5) 强化学习算法的选择,例如使用PPO或SAC等算法。
🖼️ 关键图片
📊 实验亮点
CarPlanner在nuPlan数据集上取得了显著的性能提升,超越了基于强化学习、模仿学习和规则的现有最佳方法。具体而言,CarPlanner在轨迹规划的安全性、效率和舒适度等指标上均取得了显著提升。该结果表明,CarPlanner能够有效地解决大规模真实世界场景中的轨迹规划问题,并为自动驾驶技术的发展提供了一种新的解决方案。
🎯 应用场景
CarPlanner可应用于各种自动驾驶场景,包括城市道路、高速公路和停车场等。该研究成果有助于提高自动驾驶系统的安全性、效率和舒适性,并加速自动驾驶技术的商业化落地。未来,CarPlanner可以进一步扩展到更复杂的交通环境,例如包含行人、自行车和交通信号灯的场景,并与其他自动驾驶模块(如感知和定位)进行集成。
📄 摘要(原文)
Trajectory planning is vital for autonomous driving, ensuring safe and efficient navigation in complex environments. While recent learning-based methods, particularly reinforcement learning (RL), have shown promise in specific scenarios, RL planners struggle with training inefficiencies and managing large-scale, real-world driving scenarios. In this paper, we introduce \textbf{CarPlanner}, a \textbf{C}onsistent \textbf{a}uto-\textbf{r}egressive \textbf{Planner} that uses RL to generate multi-modal trajectories. The auto-regressive structure enables efficient large-scale RL training, while the incorporation of consistency ensures stable policy learning by maintaining coherent temporal consistency across time steps. Moreover, CarPlanner employs a generation-selection framework with an expert-guided reward function and an invariant-view module, simplifying RL training and enhancing policy performance. Extensive analysis demonstrates that our proposed RL framework effectively addresses the challenges of training efficiency and performance enhancement, positioning CarPlanner as a promising solution for trajectory planning in autonomous driving. To the best of our knowledge, we are the first to demonstrate that the RL-based planner can surpass both IL- and rule-based state-of-the-arts (SOTAs) on the challenging large-scale real-world dataset nuPlan. Our proposed CarPlanner surpasses RL-, IL-, and rule-based SOTA approaches within this demanding dataset.