Learning Soft Driving Constraints from Vectorized Scene Embeddings while Imitating Expert Trajectories

📄 arXiv: 2412.05717v1 📥 PDF

作者: Niloufar Saeidi Mobarakeh, Behzad Khamidehi, Chunlin Li, Hamidreza Mirkhani, Fazel Arasteh, Mohammed Elmahgiubi, Weize Zhang, Kasra Rezaee, Pascal Poupart

分类: cs.RO, cs.AI, cs.LG

发布日期: 2024-12-07


💡 一句话要点

提出一种基于向量化场景嵌入和专家轨迹模仿的软约束驾驶学习方法。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 运动规划 模仿学习 约束学习 向量化场景嵌入 自动驾驶

📋 核心要点

  1. 传统模仿学习方法缺乏可解释性,难以解释决策依据,是智能驾驶运动规划面临的核心问题。
  2. 该方法利用向量化场景嵌入提取驾驶约束,并将其融入模仿学习,提升模型对场景的理解和泛化能力。
  3. 实验表明,该方法在InD和TrafficJams数据集上提高了模型的可解释性和闭环性能,验证了其有效性。

📝 摘要(中文)

本文提出了一种将约束学习融入模仿学习的方法,用于生成安全高效的车辆轨迹。该方法从专家轨迹中提取驾驶约束,并利用向量化场景嵌入捕捉关键的时空特征,从而识别和泛化各种驾驶场景中的约束。通过最大熵模型对运动规划器的轨迹进行评分,评分过程被分解为奖励和约束两个独立的流,提高了规划器行为的可解释性以及对相关场景组件的关注。与依赖模拟器且通常嵌入在强化学习或逆强化学习框架中的现有约束学习方法不同,该方法无需模拟器即可运行,适用于更广泛的数据集和实际场景。在InD和TrafficJams数据集上的实验结果表明,结合驾驶约束可以增强模型的可解释性并提高闭环性能。

🔬 方法详解

问题定义:现有的运动规划模型通常使用模仿学习来模仿人类专家的行为,但这些模型缺乏可解释性,无法提供清晰的决策依据。此外,现有约束学习方法依赖于模拟器,限制了其在真实世界数据集上的应用。因此,需要一种无需模拟器且具有良好可解释性的约束学习方法,以提高运动规划模型的性能。

核心思路:本文的核心思路是将约束学习融入到模仿学习框架中,通过从专家轨迹中提取驾驶约束来指导运动规划。利用向量化场景嵌入来捕捉场景中的关键时空特征,从而使模型能够识别和泛化不同驾驶场景中的约束。通过将评分过程分解为奖励和约束两个独立的流,提高模型的可解释性。

技术框架:该方法主要包含以下几个模块:1) 向量化场景嵌入模块:用于提取场景中的关键时空特征,生成向量化场景嵌入。2) 约束学习模块:从专家轨迹中学习驾驶约束,并使用最大熵模型对运动规划器的轨迹进行评分。3) 运动规划模块:根据奖励和约束的评分,生成安全高效的车辆轨迹。整体流程是,首先利用向量化场景嵌入模块提取场景特征,然后利用约束学习模块学习驾驶约束,最后利用运动规划模块生成轨迹。

关键创新:该方法的主要创新点在于:1) 提出了一种无需模拟器的约束学习方法,使其能够应用于更广泛的数据集和实际场景。2) 将评分过程分解为奖励和约束两个独立的流,提高了模型的可解释性。3) 利用向量化场景嵌入捕捉场景中的关键时空特征,提高了模型对场景的理解和泛化能力。

关键设计:该方法使用最大熵模型来学习驾驶约束,目标是最大化专家轨迹的概率。损失函数包括奖励损失和约束损失两部分,奖励损失用于模仿专家轨迹的行为,约束损失用于惩罚违反驾驶约束的轨迹。网络结构包括一个编码器和一个解码器,编码器用于将场景嵌入到低维空间,解码器用于预测轨迹的奖励和约束评分。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在InD和TrafficJams数据集上的实验结果表明,该方法能够有效提高模型的可解释性和闭环性能。具体来说,与基线方法相比,该方法在闭环驾驶任务中取得了显著的性能提升,并且能够生成更加符合人类驾驶习惯的轨迹。实验结果还表明,通过将评分过程分解为奖励和约束两个独立的流,可以有效提高模型对相关场景组件的关注。

🎯 应用场景

该研究成果可应用于自动驾驶、高级驾驶辅助系统(ADAS)等领域,提升车辆在复杂交通环境下的安全性、效率和可解释性。通过学习人类驾驶员的驾驶习惯和约束,可以使自动驾驶系统更加安全可靠,并提高用户对自动驾驶技术的信任度。此外,该方法还可以用于驾驶员行为分析和驾驶风险评估。

📄 摘要(原文)

The primary goal of motion planning is to generate safe and efficient trajectories for vehicles. Traditionally, motion planning models are trained using imitation learning to mimic the behavior of human experts. However, these models often lack interpretability and fail to provide clear justifications for their decisions. We propose a method that integrates constraint learning into imitation learning by extracting driving constraints from expert trajectories. Our approach utilizes vectorized scene embeddings that capture critical spatial and temporal features, enabling the model to identify and generalize constraints across various driving scenarios. We formulate the constraint learning problem using a maximum entropy model, which scores the motion planner's trajectories based on their similarity to the expert trajectory. By separating the scoring process into distinct reward and constraint streams, we improve both the interpretability of the planner's behavior and its attention to relevant scene components. Unlike existing constraint learning methods that rely on simulators and are typically embedded in reinforcement learning (RL) or inverse reinforcement learning (IRL) frameworks, our method operates without simulators, making it applicable to a wider range of datasets and real-world scenarios. Experimental results on the InD and TrafficJams datasets demonstrate that incorporating driving constraints enhances model interpretability and improves closed-loop performance.