Reinforced Imitative Trajectory Planning for Urban Automated Driving
作者: Di Zeng, Ling Zheng, Xiantong Yang, Yinong Li
分类: cs.RO, cs.AI
发布日期: 2024-10-21 (更新: 2025-07-16)
备注: 21 pages, 9 figures
🔗 代码/项目: GITHUB
💡 一句话要点
提出强化模仿轨迹规划方法,用于城市自动驾驶多步轨迹规划。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 模仿学习 轨迹规划 自动驾驶 贝叶斯奖励函数 Transformer 多步规划
📋 核心要点
- 现有强化学习轨迹规划方法在城市自动驾驶中存在收敛性差、奖励函数设计难等问题,难以达到模仿学习的性能水平。
- 该论文提出一种结合强化学习与模仿学习的轨迹规划方法,并设计基于Transformer的贝叶斯奖励函数,实现多步规划。
- 在nuPlan数据集上的实验表明,该方法显著优于基线方法,并与当前最优方法相比具有竞争力,验证了其有效性。
📝 摘要(中文)
强化学习(RL)在城市自动驾驶轨迹规划中面临收敛性差和奖励函数难以设计的挑战。因此,基于强化学习的轨迹规划方法在性能上难以与模仿学习方法相媲美。将强化学习与监督学习相结合可以缓解收敛问题,但现有方法大多只考虑单步预测,缺乏多步规划能力。此外,虽然逆强化学习有望解决奖励函数设计问题,但现有的自动驾驶方法对奖励函数施加线性结构假设,难以应用于城市自动驾驶。针对这些挑战,本文提出了一种新的基于强化学习的轨迹规划方法,该方法集成了强化学习和模仿学习,以实现多步规划。此外,还开发了一种基于Transformer的贝叶斯奖励函数,为城市场景中的强化学习提供有效的奖励信号。此外,还提出了一种混合驱动的轨迹规划框架,以提高安全性和可解释性。所提出的方法在大型真实城市自动驾驶nuPlan数据集上进行了验证。使用闭环指标评估的结果表明,该方法显著优于采用相同策略模型结构的基线,并实现了与最先进方法相比具有竞争力的性能。代码已在https://github.com/Zigned/nuplan_zigned上提供。
🔬 方法详解
问题定义:城市自动驾驶场景下的轨迹规划问题,现有基于强化学习的方法存在收敛性差、奖励函数设计困难的问题,且大多只能进行单步规划,难以适应复杂多变的城市环境。此外,现有逆强化学习方法对奖励函数的线性假设限制了其在复杂城市环境中的应用。
核心思路:结合强化学习和模仿学习的优势,利用模仿学习提供较好的初始策略,加速强化学习的收敛。同时,引入多步规划能力,使智能体能够更好地预测未来状态,做出更合理的决策。使用基于Transformer的贝叶斯奖励函数,摆脱线性假设的限制,更准确地反映城市交通场景的复杂性。
技术框架:该方法采用混合驱动的轨迹规划框架,包含以下主要模块:1) 模仿学习模块,用于初始化策略;2) 强化学习模块,用于优化策略;3) 基于Transformer的贝叶斯奖励函数,用于提供奖励信号;4) 混合驱动模块,用于融合人工规则和学习策略,提高安全性和可解释性。整体流程为:首先使用模仿学习训练初始策略,然后使用强化学习和贝叶斯奖励函数进一步优化策略,最后通过混合驱动模块生成最终轨迹。
关键创新:1) 提出了一种结合强化学习和模仿学习的轨迹规划方法,有效缓解了强化学习的收敛问题,并提高了规划性能。2) 提出了基于Transformer的贝叶斯奖励函数,能够更准确地建模城市交通场景的复杂奖励结构,摆脱了线性假设的限制。3) 提出了混合驱动的轨迹规划框架,融合了人工规则和学习策略,提高了安全性和可解释性。
关键设计:Transformer-based Bayesian reward function的具体设计未知,但可以推测其输入为车辆状态、环境信息等,输出为奖励值。损失函数可能包含模仿学习损失和强化学习损失,用于指导策略学习。混合驱动模块的具体融合方式未知,但可能采用加权平均或规则切换等策略。
🖼️ 关键图片
📊 实验亮点
在nuPlan数据集上的实验结果表明,该方法显著优于采用相同策略模型结构的基线方法,并在闭环指标上实现了与最先进方法相比具有竞争力的性能。具体提升幅度未知,但论文强调了其显著优于基线方法,表明了该方法的有效性。
🎯 应用场景
该研究成果可应用于城市自动驾驶车辆的轨迹规划,提高自动驾驶系统的安全性、可靠性和适应性。通过更合理的轨迹规划,可以减少交通事故,提高交通效率,并为乘客提供更舒适的乘坐体验。此外,该方法还可以推广到其他需要复杂决策的机器人应用场景,例如无人配送、智能仓储等。
📄 摘要(原文)
Reinforcement learning (RL) faces challenges in trajectory planning for urban automated driving due to the poor convergence of RL and the difficulty in designing reward functions. Consequently, few RL-based trajectory planning methods can achieve performance comparable to that of imitation learning-based methods. The convergence problem is alleviated by combining RL with supervised learning. However, most existing approaches only reason one step ahead and lack the capability to plan for multiple future steps. Besides, although inverse reinforcement learning holds promise for solving the reward function design issue, existing methods for automated driving impose a linear structure assumption on reward functions, making them difficult to apply to urban automated driving. In light of these challenges, this paper proposes a novel RL-based trajectory planning method that integrates RL with imitation learning to enable multi-step planning. Furthermore, a transformer-based Bayesian reward function is developed, providing effective reward signals for RL in urban scenarios. Moreover, a hybrid-driven trajectory planning framework is proposed to enhance safety and interpretability. The proposed methods were validated on the large-scale real-world urban automated driving nuPlan dataset. Evaluated using closed-loop metrics, the results demonstrated that the proposed method significantly outperformed the baseline employing the identical policy model structure and achieved competitive performance compared to the state-of-the-art method. The code is available at https://github.com/Zigned/nuplan_zigned.