Deep reinforcement learning-based longitudinal control strategy for automated vehicles at signalised intersections
作者: Pankaj Kumar, Aditya Mishra, Pranamesh Chakraborty, Subrahmanya Swamy Peruru
分类: cs.AI, cs.RO
发布日期: 2025-05-13
💡 一句话要点
提出基于深度强化学习的纵向控制策略,提升自动驾驶车辆在信号交叉口的安全性、效率和舒适性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 深度强化学习 自动驾驶 纵向控制 信号交叉口 DDPG SAC 奖励函数 交通安全
📋 核心要点
- 信号交叉口的自动驾驶车辆控制策略面临复杂决策挑战,现有方法难以兼顾安全、效率和舒适性。
- 论文提出基于深度强化学习的纵向控制策略,设计综合奖励函数,考虑距离车头、黄灯决策和非对称加减速。
- 实验结果表明,该策略在保持安全性的前提下,有效降低车头距离和加加速度,提升了交通效率和乘坐舒适性。
📝 摘要(中文)
本研究提出了一种基于深度强化学习(DRL)的自动驾驶车辆在信号交叉口(SI)的纵向车辆控制策略。论文构建了一个综合的奖励函数,特别关注(i)基于距离车头的效率奖励,(ii)黄灯期间的决策标准,以及(iii)非对称的加速/减速响应,同时考虑了传统的安全和舒适性标准。该奖励函数与两种流行的DRL算法,即深度确定性策略梯度(DDPG)和软演员-评论家(SAC)相结合,这两种算法可以处理加速/减速的连续动作空间。所提出的模型在真实世界领头车辆(LV)轨迹和使用Ornstein-Uhlenbeck(OU)过程生成的模拟轨迹的组合上进行训练。通过累积分布函数(CDF)图测试了所提出模型的整体性能,并与真实世界轨迹数据进行了比较。结果表明,与人类驾驶车辆相比,RL模型成功地保持了较低的距离车头(即更高的效率)和更小的加加速度,而没有牺牲安全性。此外,为了评估所提出模型的鲁棒性,我们评估了模型在各种安全关键场景中的性能,包括跟车和交通信号合规性。DDPG和SAC模型都成功地处理了关键场景,而DDPG模型显示出比SAC模型更平滑的动作曲线。总的来说,结果证实了基于DRL的信号交叉口纵向车辆控制策略有助于提高交通安全、效率和舒适性。
🔬 方法详解
问题定义:论文旨在解决自动驾驶车辆在信号交叉口的纵向控制问题,即如何安全、高效、舒适地通过信号灯控制的交叉口。现有方法,如传统的PID控制或基于规则的方法,难以应对复杂多变的交通环境,无法在安全性、效率和舒适性之间取得良好的平衡。尤其是在黄灯期间的决策,以及车辆加速和减速的非对称性方面,现有方法存在不足。
核心思路:论文的核心思路是利用深度强化学习(DRL)算法,通过与环境的交互学习最优的纵向控制策略。通过精心设计的奖励函数,引导智能体学习如何在保证安全的前提下,尽可能地提高通行效率和乘坐舒适性。奖励函数的设计是关键,需要综合考虑距离车头、黄灯决策、非对称加减速以及传统的安全和舒适性指标。
技术框架:整体框架包括环境建模、智能体设计和训练三个主要部分。环境建模包括交通信号灯状态、领头车辆轨迹等信息的模拟。智能体采用DDPG或SAC算法,负责根据当前状态输出加速或减速指令。训练过程通过与环境交互,不断优化智能体的策略,使其能够最大化累积奖励。
关键创新:论文的关键创新在于综合奖励函数的设计,它将距离车头、黄灯决策和非对称加减速等因素纳入考虑,使得智能体能够学习到更符合实际驾驶场景的控制策略。此外,论文还采用了DDPG和SAC两种不同的DRL算法,并对它们的性能进行了比较。
关键设计:奖励函数的设计是关键的技术细节。例如,距离车头奖励鼓励智能体保持较小的车头距离,以提高通行效率;黄灯决策奖励引导智能体在黄灯期间做出合理的决策,避免闯红灯或急刹车;非对称加减速奖励则考虑了车辆加速和减速性能的差异,使得控制策略更加平滑自然。此外,DDPG和SAC算法的参数设置,以及网络结构的设计,也会影响最终的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于DDPG和SAC的纵向控制策略均能有效提升车辆在信号交叉口的性能。与人类驾驶车辆相比,RL模型在保持安全性的前提下,能够显著降低车头距离(提高效率)和加加速度(提高舒适性)。DDPG模型在动作平滑性方面优于SAC模型。在安全关键场景下,两种模型均能成功处理跟车和交通信号合规性问题,验证了模型的鲁棒性。
🎯 应用场景
该研究成果可应用于自动驾驶车辆的纵向控制系统,尤其是在城市交通环境中,能够提升车辆在信号交叉口的通行效率和安全性,改善乘坐舒适性。此外,该方法还可以推广到其他交通场景,如高速公路匝道汇入、拥堵路段跟车等,具有广阔的应用前景和实际价值。
📄 摘要(原文)
Developing an autonomous vehicle control strategy for signalised intersections (SI) is one of the challenging tasks due to its inherently complex decision-making process. This study proposes a Deep Reinforcement Learning (DRL) based longitudinal vehicle control strategy at SI. A comprehensive reward function has been formulated with a particular focus on (i) distance headway-based efficiency reward, (ii) decision-making criteria during amber light, and (iii) asymmetric acceleration/ deceleration response, along with the traditional safety and comfort criteria. This reward function has been incorporated with two popular DRL algorithms, Deep Deterministic Policy Gradient (DDPG) and Soft-Actor Critic (SAC), which can handle the continuous action space of acceleration/deceleration. The proposed models have been trained on the combination of real-world leader vehicle (LV) trajectories and simulated trajectories generated using the Ornstein-Uhlenbeck (OU) process. The overall performance of the proposed models has been tested using Cumulative Distribution Function (CDF) plots and compared with the real-world trajectory data. The results show that the RL models successfully maintain lower distance headway (i.e., higher efficiency) and jerk compared to human-driven vehicles without compromising safety. Further, to assess the robustness of the proposed models, we evaluated the model performance on diverse safety-critical scenarios, in terms of car-following and traffic signal compliance. Both DDPG and SAC models successfully handled the critical scenarios, while the DDPG model showed smoother action profiles compared to the SAC model. Overall, the results confirm that DRL-based longitudinal vehicle control strategy at SI can help to improve traffic safety, efficiency, and comfort.