Graph-based Prediction and Planning Policy Network (GP3Net) for scalable self-driving in dynamic environments using Deep Reinforcement Learning
作者: Jayabrata Chowdhury, Venkataramanan Shivaraman, Suresh Sundaram, P B Sujit
分类: cs.AI, cs.RO
发布日期: 2023-12-10
💡 一句话要点
提出基于图预测与规划策略网络(GP3Net),用于动态环境中可扩展的自动驾驶。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 自动驾驶 运动规划 深度强化学习 图神经网络 轨迹预测
📋 核心要点
- 现有自动驾驶运动规划方法依赖专家驾驶行为,但在复杂动态环境和领域偏移下泛化能力不足。
- GP3Net通过图神经网络预测交通参与者未来轨迹,生成包含不确定性的未来占用图,提升环境感知能力。
- 实验表明,GP3Net在不同交通模式和天气条件下,均优于模仿学习模型,减少了交通违规。
📝 摘要(中文)
本文提出了一种基于深度图预测与规划策略网络(GP3Net)的框架,用于非静态环境下的自动驾驶。该框架通过图结构编码交通参与者之间的交互和上下文信息,为自动驾驶车辆的安全行驶提供决策。GP3Net利用时空图模型预测交通参与者的未来轨迹,并基于预测轨迹生成包含不确定性的未来占用图,从而预测动态驾驶环境的变化。然后,将上下文信息和未来占用图输入到策略网络中,并使用近端策略优化(PPO)算法进行训练。在CARLA基准测试场景中,针对交通模式(城市、高速公路和混合)的领域偏移,评估了GP3Net的性能。结果表明,GP3Net在不同城镇的表现优于以往基于模仿学习的规划模型。此外,在未见过的新天气条件下,GP3Net能够以更少的交通违规完成期望的路线。结果强调了包含预测模块在增强非静态环境中的安全措施方面的优势。
🔬 方法详解
问题定义:自动驾驶车辆在动态非静态环境中面临着安全行驶的挑战。现有方法主要依赖于模仿学习,即学习专家驾驶员的行为,但在交通参与者行为多变、天气条件复杂等情况下,容易出现领域偏移,导致车辆无法安全行驶,尤其是在接近失败的场景中。
核心思路:本文的核心思路是利用图神经网络对交通参与者之间的交互进行建模,并预测其未来的轨迹。通过预测未来轨迹,可以生成未来占用图,从而使自动驾驶车辆能够更好地感知动态环境的变化,并做出更安全的决策。同时,使用强化学习算法PPO对策略网络进行训练,使其能够适应不同的驾驶场景。
技术框架:GP3Net框架主要包含两个模块:预测模块和规划模块。预测模块使用时空图神经网络对交通参与者之间的交互进行建模,并预测其未来的轨迹。规划模块接收来自预测模块的未来占用图和上下文信息,并使用策略网络生成自动驾驶车辆的行驶轨迹。整个框架使用PPO算法进行端到端训练。
关键创新:GP3Net的关键创新在于将图神经网络引入到自动驾驶的运动规划中,从而能够更好地对交通参与者之间的交互进行建模,并预测其未来的轨迹。此外,GP3Net还考虑了预测的不确定性,并将其嵌入到未来占用图中,从而提高了自动驾驶车辆的鲁棒性。
关键设计:在预测模块中,使用了时空图神经网络,其中节点表示交通参与者,边表示交通参与者之间的交互。图神经网络的输入包括交通参与者的位置、速度等信息。图神经网络的输出是交通参与者未来一段时间内的轨迹。在规划模块中,策略网络使用卷积神经网络提取未来占用图和上下文信息的特征,然后使用全连接层生成自动驾驶车辆的行驶轨迹。PPO算法用于训练策略网络,目标是最大化自动驾驶车辆的奖励,奖励函数包括安全性、舒适性和效率等指标。
📊 实验亮点
GP3Net在CARLA基准测试中表现出色,在不同城镇和交通模式下均优于以往基于模仿学习的规划模型。尤其是在未见过的新天气条件下,GP3Net能够以更少的交通违规完成期望的路线,证明了其在领域偏移下的泛化能力。实验结果强调了预测模块在增强非静态环境中的安全措施方面的优势。
🎯 应用场景
该研究成果可应用于各种自动驾驶场景,包括城市道路、高速公路和乡村道路。通过提升自动驾驶车辆在动态环境中的感知和决策能力,可以提高自动驾驶的安全性、可靠性和效率,加速自动驾驶技术的商业化落地。此外,该方法还可以应用于其他机器人领域,例如无人机和移动机器人。
📄 摘要(原文)
Recent advancements in motion planning for Autonomous Vehicles (AVs) show great promise in using expert driver behaviors in non-stationary driving environments. However, learning only through expert drivers needs more generalizability to recover from domain shifts and near-failure scenarios due to the dynamic behavior of traffic participants and weather conditions. A deep Graph-based Prediction and Planning Policy Network (GP3Net) framework is proposed for non-stationary environments that encodes the interactions between traffic participants with contextual information and provides a decision for safe maneuver for AV. A spatio-temporal graph models the interactions between traffic participants for predicting the future trajectories of those participants. The predicted trajectories are utilized to generate a future occupancy map around the AV with uncertainties embedded to anticipate the evolving non-stationary driving environments. Then the contextual information and future occupancy maps are input to the policy network of the GP3Net framework and trained using Proximal Policy Optimization (PPO) algorithm. The proposed GP3Net performance is evaluated on standard CARLA benchmarking scenarios with domain shifts of traffic patterns (urban, highway, and mixed). The results show that the GP3Net outperforms previous state-of-the-art imitation learning-based planning models for different towns. Further, in unseen new weather conditions, GP3Net completes the desired route with fewer traffic infractions. Finally, the results emphasize the advantage of including the prediction module to enhance safety measures in non-stationary environments.