Multi-Task Lane-Free Driving Strategy for Connected and Automated Vehicles: A Multi-Agent Deep Reinforcement Learning Approach

📄 arXiv: 2406.14766v1 📥 PDF

作者: Mehran Berahman, Majid Rostami-Shahrbabaki, Klaus Bogenberger

分类: cs.RO

发布日期: 2024-06-20


💡 一句话要点

提出基于多智能体深度强化学习的车联网无人驾驶无车道线驾驶策略

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 深度确定性策略梯度 无车道线驾驶 车联网无人驾驶 交通仿真 自动驾驶 车辆控制

📋 核心要点

  1. 无车道线交通环境自由度高,传统决策方法难以应对其非平稳性,易导致严重事故。
  2. 采用竞争性多智能体深度确定性策略梯度算法,模拟真实交通复杂性,提升智能体鲁棒性。
  3. 实验表明,该算法能有效处理速度维持、超车、避撞等多种任务,提升自动驾驶安全性和效率。

📝 摘要(中文)

本文提出了一种基于竞争性多智能体深度确定性策略梯度(MADDPG)算法的车联网无人驾驶车辆(CAV)驾驶策略,用于解决无车道线环境下的交通控制问题。该算法模拟了动态和非平稳的真实交通环境,增强了智能体的鲁棒性。通过精心设计的奖励函数,算法能够同时优化多个车辆控制任务,包括速度维持、超车、避撞以及汇入和分流等操作。此外,还考虑了乘客在横向和纵向上的舒适性和安全性。论文采用车辆间作用力(推力和斥力)来管理CAV在无车道线环境中的行为。该算法在城市交通模拟平台(SUMO)上进行训练和评估,实验结果表明其在处理不同目标方面的有效性,并展示了其在无车道线交通环境中提高自动驾驶安全性和效率的潜力。

🔬 方法详解

问题定义:论文旨在解决车联网环境下,无人驾驶车辆在无车道线道路上的安全高效行驶问题。现有方法在处理无车道线环境时,由于车辆行为自由度高,交通状况非平稳,容易出现决策失误,导致碰撞等安全问题。

核心思路:论文的核心思路是利用多智能体深度强化学习(MADRL)方法,将每辆车视为一个智能体,通过智能体之间的竞争与协作,学习到适应动态交通环境的驾驶策略。这种方法能够更好地模拟真实交通的复杂性,提高智能体的鲁棒性。

技术框架:整体框架基于多智能体深度确定性策略梯度(MADDPG)算法。主要包括以下几个模块:1) 环境模拟:使用SUMO交通仿真平台模拟无车道线交通环境。2) 智能体设计:每个CAV车辆作为一个智能体,拥有自己的策略网络和价值网络。3) 奖励函数设计:设计综合考虑速度维持、超车、避撞、舒适性和安全性的奖励函数。4) 训练过程:通过多智能体之间的交互,利用MADDPG算法更新策略网络和价值网络。

关键创新:论文的关键创新在于:1) 采用多智能体深度强化学习方法,能够更好地处理无车道线交通的非平稳性。2) 设计了综合考虑多种因素的奖励函数,能够同时优化多个驾驶目标。3) 利用车辆间作用力(推力和斥力)来辅助车辆进行机动操作。

关键设计:奖励函数的设计是关键。它综合考虑了以下几个方面:1) 速度奖励:鼓励车辆维持期望速度。2) 超车奖励:鼓励车辆进行合理的超车行为。3) 避撞惩罚:对车辆之间的碰撞进行惩罚。4) 舒适性奖励:考虑乘客的横向和纵向加速度,避免急加速和急刹车。5) 安全性奖励:鼓励车辆保持安全距离。此外,网络结构采用Actor-Critic框架,Actor网络输出车辆的动作,Critic网络评估动作的价值。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的MADDPG算法在无车道线交通环境中能够有效地控制CAV车辆,实现速度维持、超车、避撞等多种驾驶目标。与传统的单智能体强化学习方法相比,该算法能够更好地适应动态交通环境,提高车辆的行驶效率和安全性。具体性能数据未知,但摘要强调了算法在处理不同目标方面的有效性。

🎯 应用场景

该研究成果可应用于未来的智能交通系统,尤其是在城市开放道路和特定区域的无人驾驶车辆部署。通过提高自动驾驶车辆在复杂交通环境下的安全性和效率,可以减少交通事故,缓解交通拥堵,并提升乘客的出行体验。未来,该技术还可扩展到其他类型的交通场景,如高速公路和港口等。

📄 摘要(原文)

Deep reinforcement learning has shown promise in various engineering applications, including vehicular traffic control. The non-stationary nature of traffic, especially in the lane-free environment with more degrees of freedom in vehicle behaviors, poses challenges for decision-making since a wrong action might lead to a catastrophic failure. In this paper, we propose a novel driving strategy for Connected and Automated Vehicles (CAVs) based on a competitive Multi-Agent Deep Deterministic Policy Gradient approach. The developed multi-agent deep reinforcement learning algorithm creates a dynamic and non-stationary scenario, mirroring real-world traffic complexities and making trained agents more robust. The algorithm's reward function is strategically and uniquely formulated to cover multiple vehicle control tasks, including maintaining desired speeds, overtaking, collision avoidance, and merging and diverging maneuvers. Moreover, additional considerations for both lateral and longitudinal passenger comfort and safety criteria are taken into account. We employed inter-vehicle forces, known as nudging and repulsive forces, to manage the maneuvers of CAVs in a lane-free traffic environment. The proposed driving algorithm is trained and evaluated on lane-free roads using the Simulation of Urban Mobility platform. Experimental results demonstrate the algorithm's efficacy in handling different objectives, highlighting its potential to enhance safety and efficiency in autonomous driving within lane-free traffic environments.