Roadside Units Assisted Localized Automated Vehicle Maneuvering: An Offline Reinforcement Learning Approach

📄 arXiv: 2405.03935v2 📥 PDF

作者: Kui Wang, Changyang She, Zongdian Li, Tao Yu, Yonghui Li, Kei Sakaguchi

分类: eess.SY

发布日期: 2024-05-07 (更新: 2024-09-18)

备注: 6 pages, 6 figures


💡 一句话要点

提出基于路侧单元辅助的离线强化学习自动驾驶车辆协同控制方法,提升交叉口通行效率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 路侧单元 离线强化学习 自动驾驶 协同控制 交通效率 TD3+BC 智能交通系统

📋 核心要点

  1. 互联自动驾驶车辆在交叉路口的安全高效通行面临挑战,现有方法难以兼顾安全性和效率。
  2. 利用路侧单元获取实时交通信息,结合人类驾驶数据,训练离线强化学习算法,实现协同控制。
  3. 硬件在环仿真结果表明,该方法在保证安全性的前提下,交叉口通行效率提升高达17.38%。

📝 摘要(中文)

本研究提出了一种创新的路侧单元(RSU)辅助协同控制系统,旨在提高互联自动驾驶车辆(CAV)在交叉路口的道路安全和通行效率。该系统利用RSU实时采集交通数据,并基于人类驾驶数据训练离线强化学习(RL)算法。硬件在环自动驾驶仿真评估结果表明,采用双延迟深度确定性策略梯度和行为克隆(TD3+BC)算法的方案,在安全指标上可与最先进的自动驾驶系统相媲美,同时显著提高交叉路口通行效率,提升幅度高达17.38%。该研究为智能交通系统领域做出了关键贡献,为改善城市交通流量和交叉路口安全性提供了一种突破性解决方案。

🔬 方法详解

问题定义:论文旨在解决互联自动驾驶车辆在交叉路口安全高效通行的问题。现有方法通常难以在安全性和通行效率之间取得平衡,或者依赖于在线强化学习,需要大量的探索和试错,存在安全风险。

核心思路:论文的核心思路是利用路侧单元(RSU)获取实时的交通信息,例如车辆的位置、速度等,然后利用这些信息来辅助自动驾驶车辆进行决策。同时,为了避免在线强化学习带来的安全问题,论文采用离线强化学习的方法,利用人类驾驶数据进行训练。

技术框架:整体框架包括三个主要部分:1) 路侧单元(RSU)负责实时采集交通数据;2) 离线强化学习算法,基于采集到的数据进行训练,生成控制策略;3) 自动驾驶车辆根据控制策略进行决策和控制。具体而言,论文采用了TD3+BC算法,TD3负责学习最优策略,BC负责模仿人类驾驶行为,从而提高安全性和稳定性。

关键创新:论文的关键创新在于将路侧单元辅助和离线强化学习相结合,从而在保证安全性的前提下,提高了交叉路口的通行效率。传统的强化学习方法通常需要大量的在线探索,这在实际交通环境中是不可行的。而离线强化学习则可以利用已有的数据进行训练,避免了在线探索的风险。

关键设计:论文采用了TD3+BC算法,其中TD3是一种off-policy的强化学习算法,可以有效地处理连续动作空间的问题。BC(Behavior Cloning)是一种模仿学习算法,可以利用人类驾驶数据来初始化策略,从而加速训练过程,并提高策略的安全性。论文中,TD3和BC的损失函数被结合起来,共同优化策略。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

硬件在环仿真结果表明,该方法在安全指标上与最先进的自动驾驶系统相媲美,同时显著提高交叉路口通行效率,提升幅度高达17.38%。这表明该方法在保证安全性的前提下,能够有效地提高交通效率,具有重要的实际应用价值。

🎯 应用场景

该研究成果可应用于智能交通系统,提升城市交通效率和安全性。通过在交叉路口部署路侧单元,辅助自动驾驶车辆进行协同控制,可以有效减少交通拥堵,降低交通事故发生率。未来,该技术可推广至更复杂的交通场景,例如高速公路匝道、城市快速路等。

📄 摘要(原文)

Traffic intersections present significant challenges for the safe and efficient maneuvering of connected and automated vehicles (CAVs). This research proposes an innovative roadside unit (RSU)-assisted cooperative maneuvering system aimed at enhancing road safety and traveling efficiency at intersections for CAVs. We utilize RSUs for real-time traffic data acquisition and train an offline reinforcement learning (RL) algorithm based on human driving data. Evaluation results obtained from hardware-in-loop autonomous driving simulations show that our approach employing the twin delayed deep deterministic policy gradient and behavior cloning (TD3+BC), achieves performance comparable to state-of-the-art autonomous driving systems in terms of safety measures while significantly enhancing travel efficiency by up to 17.38% in intersection areas. This paper makes a pivotal contribution to the field of intelligent transportation systems, presenting a breakthrough solution for improving urban traffic flow and safety at intersections.