Hybrid Imitation-Learning Motion Planner for Urban Driving

📄 arXiv: 2409.02871v2 📥 PDF

作者: Cristian Gariboldi, Matteo Corno, Beng Jin

分类: cs.RO, cs.AI, cs.LG

发布日期: 2024-09-04 (更新: 2025-04-19)

备注: 2024 IEEE 27th International Conference on Intelligent Transportation Systems (ITSC)

DOI: 10.1109/ITSC58415.2024.10919508


💡 一句话要点

提出混合模仿学习运动规划器,提升城市自动驾驶的安全性和拟人化程度。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 运动规划 模仿学习 自动驾驶 混合规划 轨迹优化

📋 核心要点

  1. 现有基于学习的运动规划器模仿人类驾驶行为优秀,但在保证闭环驾驶安全性方面存在挑战。
  2. 提出一种混合运动规划器,结合模仿学习生成类人轨迹和优化方法保证安全性和可行性。
  3. 通过仿真和真实车辆实验验证了该方法的有效性,平衡了安全性和类人特性。

📝 摘要(中文)

近年来,随着nuPlan和Argoverse等开源数据集的发布,基于学习的规划器研究得到了广泛发展。现有的系统在模仿人类驾驶员行为方面表现出卓越的能力,但难以保证安全的闭环驾驶。相反,基于优化的规划器在短期规划场景中提供了更高的安全性。为了应对这一挑战,本文提出了一种新颖的混合运动规划器,该规划器集成了基于学习和基于优化的技术。最初,一个多层感知器(MLP)生成类似人类的轨迹,然后通过基于优化的组件对其进行细化。该组件不仅最小化了跟踪误差,还计算出一条在运动学上可行且与障碍物和道路边界无碰撞的轨迹。我们的模型有效地平衡了安全性和类人特性,缓解了这些目标中固有的权衡。我们通过仿真实验验证了我们的方法,并通过将其部署在真实的自动驾驶车辆中进一步证明了其有效性。

🔬 方法详解

问题定义:现有基于学习的运动规划器虽然能够很好地模仿人类驾驶行为,但在实际应用中难以保证车辆的安全性,尤其是在复杂的城市环境中。另一方面,传统的基于优化的规划器虽然安全性较高,但生成的轨迹往往不够自然,缺乏人类驾驶的灵活性和适应性。因此,如何在保证安全性的前提下,提高运动规划器的类人化程度是一个重要的挑战。

核心思路:本文的核心思路是将基于学习的模仿学习方法和基于优化的运动规划方法相结合,构建一个混合运动规划器。模仿学习方法负责生成类人化的初始轨迹,而优化方法则负责对该轨迹进行优化,确保其满足运动学约束、避开障碍物,并最终生成安全可行的轨迹。通过这种方式,可以充分利用两种方法的优点,在安全性和类人化程度之间取得平衡。

技术框架:该混合运动规划器主要包含两个阶段:轨迹生成阶段和轨迹优化阶段。在轨迹生成阶段,使用一个多层感知器(MLP)作为模仿学习模型,根据当前车辆的状态和周围环境信息,生成一条类人化的初始轨迹。在轨迹优化阶段,使用基于优化的方法对初始轨迹进行优化,目标是最小化跟踪误差,同时满足运动学约束和避障约束。优化后的轨迹将作为最终的运动规划结果。

关键创新:该方法最大的创新在于将模仿学习和优化方法有机地结合在一起,利用模仿学习生成类人化的初始轨迹,然后利用优化方法保证轨迹的安全性和可行性。这种混合方法能够有效地平衡安全性和类人化程度,克服了单一方法的局限性。

关键设计:在轨迹优化阶段,需要设计合适的损失函数来平衡不同的优化目标。例如,可以使用二次损失函数来最小化跟踪误差,使用惩罚函数来约束车辆的运动学状态,并使用碰撞检测算法来避免与障碍物发生碰撞。此外,还需要选择合适的优化算法来求解优化问题,例如序列二次规划(SQP)算法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该论文通过仿真实验和真实车辆实验验证了所提出方法的有效性。实验结果表明,该混合运动规划器能够在保证安全性的前提下,生成更类人化的轨迹。具体的性能数据未知,但论文强调该方法能够有效地平衡安全性和类人特性,缓解了传统方法中固有的权衡。

🎯 应用场景

该研究成果可应用于城市自动驾驶车辆的运动规划系统,提升自动驾驶车辆在复杂城市环境中的安全性和用户体验。通过生成更自然、更符合人类驾驶习惯的轨迹,可以提高乘客的舒适度,并减少与其他交通参与者的互动冲突。此外,该方法还可以应用于其他需要运动规划的机器人系统,例如无人机、移动机器人等。

📄 摘要(原文)

With the release of open source datasets such as nuPlan and Argoverse, the research around learning-based planners has spread a lot in the last years. Existing systems have shown excellent capabilities in imitating the human driver behaviour, but they struggle to guarantee safe closed-loop driving. Conversely, optimization-based planners offer greater security in short-term planning scenarios. To confront this challenge, in this paper we propose a novel hybrid motion planner that integrates both learning-based and optimization-based techniques. Initially, a multilayer perceptron (MLP) generates a human-like trajectory, which is then refined by an optimization-based component. This component not only minimizes tracking errors but also computes a trajectory that is both kinematically feasible and collision-free with obstacles and road boundaries. Our model effectively balances safety and human-likeness, mitigating the trade-off inherent in these objectives. We validate our approach through simulation experiments and further demonstrate its efficacy by deploying it in real-world self-driving vehicles.