Uncertainty-Aware DRL for Autonomous Vehicle Crowd Navigation in Shared Space

📄 arXiv: 2405.13969v1 📥 PDF

作者: Mahsa Golchoubian, Moojan Ghafurian, Kerstin Dautenhahn, Nasser Lashgarian Azad

分类: cs.RO, cs.AI, cs.LG, eess.SY

发布日期: 2024-05-22

备注: Accepted for publication in IEEE Transactions on Intelligent Vehicles

DOI: 10.1109/TIV.2024.3405330


💡 一句话要点

提出不确定性感知DRL算法,提升自动驾驶车辆在共享空间的人群导航安全性。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自动驾驶 人群导航 深度强化学习 不确定性建模 行人轨迹预测

📋 核心要点

  1. 现有深度强化学习方法在人群导航中忽略了行人轨迹预测的不确定性,导致预测结果在偏离真实情况时效果不佳。
  2. 提出一种集成的预测和规划方法,将行人状态预测的不确定性融入到无模型深度强化学习算法的训练中。
  3. 实验结果表明,该方法显著降低了碰撞率,增加了与行人的最小距离,并在性能和计算时间上优于模型预测控制方法。

📝 摘要(中文)

在行人密集的低速自动驾驶环境中,安全、符合社会规范且高效的导航需要考虑行人的未来位置以及他们与车辆和其他行人之间的互动。由于行人未被观察到的状态(例如意图)导致预测轨迹存在不可避免的不确定性,但现有的用于人群导航的深度强化学习(DRL)算法在利用预测轨迹指导策略学习时,通常忽略了这些不确定性。这种忽略限制了预测在偏离真实情况时的可用性。本文提出了一种集成的预测和规划方法,该方法将预测的行人状态的不确定性纳入到无模型DRL算法的训练中。一种新颖的奖励函数鼓励自动驾驶车辆尊重行人的个人空间,在靠近时降低速度,并最小化与预测路径的碰撞概率。与以往的DRL方法不同,我们的模型专为拥挤空间中的自动驾驶车辆运行而设计,并在一个反映车辆共享空间中真实行人行为的新型仿真环境中进行训练。结果表明,与不考虑预测不确定性的最先进模型相比,碰撞率降低了40%,与行人的最小距离增加了15%。此外,该方法在性能和计算时间方面均优于在类似场景中结合相同预测不确定性的模型预测控制方法,同时产生的轨迹更接近人类驾驶员。

🔬 方法详解

问题定义:论文旨在解决自动驾驶车辆在行人密集环境中安全导航的问题。现有方法,特别是基于深度强化学习的方法,通常忽略了行人轨迹预测的不确定性,导致在实际应用中,当预测与真实情况存在偏差时,导航性能下降,甚至可能发生碰撞。现有方法无法有效处理行人行为的随机性和不可预测性。

核心思路:论文的核心思路是将行人轨迹预测的不确定性纳入到深度强化学习的训练过程中。通过考虑预测的不确定性,自动驾驶车辆可以更加稳健地应对行人的各种行为,从而提高导航的安全性和效率。这种方法允许车辆在规划路径时,不仅考虑最可能的行人轨迹,还考虑其他可能的轨迹,从而降低碰撞风险。

技术框架:该方法包含预测和规划两个主要模块。首先,使用某种预测模型(具体模型未知)预测行人的未来轨迹,并估计预测的不确定性。然后,将预测的轨迹和不确定性信息输入到深度强化学习算法中进行训练。深度强化学习算法的目标是学习一个策略,该策略能够根据当前环境状态和预测的行人轨迹,控制自动驾驶车辆的安全导航。整体流程是端到端的,即从环境感知到决策控制,全部由深度强化学习模型完成。

关键创新:该论文的关键创新在于将行人轨迹预测的不确定性显式地纳入到深度强化学习的训练过程中。这与以往的深度强化学习方法不同,以往的方法通常假设预测是准确的,或者简单地使用单一的预测轨迹。通过考虑不确定性,该方法可以更加稳健地应对行人的各种行为,从而提高导航的安全性和效率。此外,新设计的奖励函数也鼓励车辆尊重行人空间,减速避让,降低碰撞概率。

关键设计:论文设计了一个新颖的奖励函数,该函数鼓励自动驾驶车辆尊重行人的个人空间,在靠近行人时降低速度,并最小化与行人预测路径的碰撞概率。奖励函数的具体形式未知,但可以推测其包含多个惩罚项,分别对应于碰撞、侵犯个人空间和速度过快等行为。此外,论文还设计了一个新的仿真环境,该环境能够反映车辆共享空间中真实的行人行为。仿真环境的具体细节未知,但可以推测其包含多种行人行为模型,以及各种不同的场景设置。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,与不考虑预测不确定性的最先进模型相比,该方法在碰撞率方面降低了40%,与行人的最小距离增加了15%。此外,该方法在性能和计算时间方面均优于结合相同预测不确定性的模型预测控制方法,同时产生的轨迹更接近人类驾驶员。这些结果表明,该方法在提高自动驾驶车辆在人群中的导航安全性方面具有显著优势。

🎯 应用场景

该研究成果可应用于低速自动驾驶车辆在行人密集环境中的导航,例如校园、公园、购物中心等。通过提高自动驾驶车辆在这些环境中的安全性和效率,可以促进自动驾驶技术的普及和应用,并提升人们的出行体验。此外,该方法还可以推广到其他需要考虑预测不确定性的机器人导航任务中。

📄 摘要(原文)

Safe, socially compliant, and efficient navigation of low-speed autonomous vehicles (AVs) in pedestrian-rich environments necessitates considering pedestrians' future positions and interactions with the vehicle and others. Despite the inevitable uncertainties associated with pedestrians' predicted trajectories due to their unobserved states (e.g., intent), existing deep reinforcement learning (DRL) algorithms for crowd navigation often neglect these uncertainties when using predicted trajectories to guide policy learning. This omission limits the usability of predictions when diverging from ground truth. This work introduces an integrated prediction and planning approach that incorporates the uncertainties of predicted pedestrian states in the training of a model-free DRL algorithm. A novel reward function encourages the AV to respect pedestrians' personal space, decrease speed during close approaches, and minimize the collision probability with their predicted paths. Unlike previous DRL methods, our model, designed for AV operation in crowded spaces, is trained in a novel simulation environment that reflects realistic pedestrian behaviour in a shared space with vehicles. Results show a 40% decrease in collision rate and a 15% increase in minimum distance to pedestrians compared to the state of the art model that does not account for prediction uncertainty. Additionally, the approach outperforms model predictive control methods that incorporate the same prediction uncertainties in terms of both performance and computational time, while producing trajectories closer to human drivers in similar scenarios.