Roadside Units Assisted Localized Automated Vehicle Maneuvering: An Offline Reinforcement Learning Approach

作者: Kui Wang, Changyang She, Zongdian Li, Tao Yu, Yonghui Li, Kei Sakaguchi

分类: eess.SY

发布日期: 2024-05-07 (更新: 2024-09-18)

备注: 6 pages, 6 figures

💡 一句话要点

提出基于路侧单元辅助的离线强化学习自动驾驶车辆协同控制方法，提升交叉口通行效率。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 路侧单元 离线强化学习 自动驾驶 协同控制 交通效率 TD3+BC 智能交通系统

📋 核心要点

互联自动驾驶车辆在交叉路口的安全高效通行面临挑战，现有方法难以兼顾安全性和效率。
利用路侧单元获取实时交通信息，结合人类驾驶数据，训练离线强化学习算法，实现协同控制。
硬件在环仿真结果表明，该方法在保证安全性的前提下，交叉口通行效率提升高达17.38%。

📝 摘要（中文）

本研究提出了一种创新的路侧单元（RSU）辅助协同控制系统，旨在提高互联自动驾驶车辆（CAV）在交叉路口的道路安全和通行效率。该系统利用RSU实时采集交通数据，并基于人类驾驶数据训练离线强化学习（RL）算法。硬件在环自动驾驶仿真评估结果表明，采用双延迟深度确定性策略梯度和行为克隆（TD3+BC）算法的方案，在安全指标上可与最先进的自动驾驶系统相媲美，同时显著提高交叉路口通行效率，提升幅度高达17.38%。该研究为智能交通系统领域做出了关键贡献，为改善城市交通流量和交叉路口安全性提供了一种突破性解决方案。

🔬 方法详解

问题定义：论文旨在解决互联自动驾驶车辆在交叉路口安全高效通行的问题。现有方法通常难以在安全性和通行效率之间取得平衡，或者依赖于在线强化学习，需要大量的探索和试错，存在安全风险。

核心思路：论文的核心思路是利用路侧单元（RSU）获取实时的交通信息，例如车辆的位置、速度等，然后利用这些信息来辅助自动驾驶车辆进行决策。同时，为了避免在线强化学习带来的安全问题，论文采用离线强化学习的方法，利用人类驾驶数据进行训练。

技术框架：整体框架包括三个主要部分：1) 路侧单元（RSU）负责实时采集交通数据；2) 离线强化学习算法，基于采集到的数据进行训练，生成控制策略；3) 自动驾驶车辆根据控制策略进行决策和控制。具体而言，论文采用了TD3+BC算法，TD3负责学习最优策略，BC负责模仿人类驾驶行为，从而提高安全性和稳定性。

关键创新：论文的关键创新在于将路侧单元辅助和离线强化学习相结合，从而在保证安全性的前提下，提高了交叉路口的通行效率。传统的强化学习方法通常需要大量的在线探索，这在实际交通环境中是不可行的。而离线强化学习则可以利用已有的数据进行训练，避免了在线探索的风险。

关键设计：论文采用了TD3+BC算法，其中TD3是一种off-policy的强化学习算法，可以有效地处理连续动作空间的问题。BC（Behavior Cloning）是一种模仿学习算法，可以利用人类驾驶数据来初始化策略，从而加速训练过程，并提高策略的安全性。论文中，TD3和BC的损失函数被结合起来，共同优化策略。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

硬件在环仿真结果表明，该方法在安全指标上与最先进的自动驾驶系统相媲美，同时显著提高交叉路口通行效率，提升幅度高达17.38%。这表明该方法在保证安全性的前提下，能够有效地提高交通效率，具有重要的实际应用价值。

🎯 应用场景

该研究成果可应用于智能交通系统，提升城市交通效率和安全性。通过在交叉路口部署路侧单元，辅助自动驾驶车辆进行协同控制，可以有效减少交通拥堵，降低交通事故发生率。未来，该技术可推广至更复杂的交通场景，例如高速公路匝道、城市快速路等。

📄 摘要（原文）

Traffic intersections present significant challenges for the safe and efficient maneuvering of connected and automated vehicles (CAVs). This research proposes an innovative roadside unit (RSU)-assisted cooperative maneuvering system aimed at enhancing road safety and traveling efficiency at intersections for CAVs. We utilize RSUs for real-time traffic data acquisition and train an offline reinforcement learning (RL) algorithm based on human driving data. Evaluation results obtained from hardware-in-loop autonomous driving simulations show that our approach employing the twin delayed deep deterministic policy gradient and behavior cloning (TD3+BC), achieves performance comparable to state-of-the-art autonomous driving systems in terms of safety measures while significantly enhancing travel efficiency by up to 17.38% in intersection areas. This paper makes a pivotal contribution to the field of intelligent transportation systems, presenting a breakthrough solution for improving urban traffic flow and safety at intersections.

Roadside Units Assisted Localized Automated Vehicle Maneuvering: An Offline Reinforcement Learning Approach

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理