Adaptive Transit Signal Priority based on Deep Reinforcement Learning and Connected Vehicles in a Traffic Microsimulation Environment

作者: Dickness Kwesiga, Angshuman Guin, Michael Hunter

分类: cs.LG

发布日期: 2024-07-31

💡 一句话要点

提出基于深度强化学习和车联网的自适应公交信号优先控制方法

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 公交信号优先 车联网 智能交通系统 交通微观仿真

📋 核心要点

现有自适应公交信号优先控制算法依赖复杂的数学规划，计算成本高，难以适应动态交通环境。
提出一种基于深度强化学习的TSP代理，利用车联网数据，在公交车接近时动态调整信号灯配时。
实验表明，该方法在微观交通仿真中能有效减少公交车通行时间，且对普通车辆影响较小。

📝 摘要（中文）

本研究提出了一种基于无模型强化学习（RL）的自适应公交信号优先（TSP）算法，旨在替代需要复杂非线性目标函数的传统数学规划方法。该研究将基于RL的交通控制扩展到TSP领域。利用微观仿真环境和车联网数据，开发并测试了一种基于事件的TSP强化学习代理，该代理从另一个已开发的基于RL的通用交通信号控制器接管控制权。当公交车进入交叉口的专用短程通信（DSRC）区域时，TSP代理开始工作。结果表明，该代理能够将公交车通行时间减少约21%，同时在0.95的饱和率下对一般交通的影响很小。与具有TSP的感应信号控制相比，该TSP代理在公交车通行时间方面也略有优势。代理和仿真的架构选择考虑了提高仿真运行时间效率的需求。

🔬 方法详解

问题定义：现有自适应公交信号优先控制（TSP）方法通常依赖于复杂的数学规划模型，这些模型需要精确的交通参数和复杂的非线性目标函数。这些方法计算成本高昂，难以实时优化，并且难以适应交通状况的快速变化。因此，需要一种更灵活、更高效的TSP控制方法。

核心思路：本研究的核心思路是利用无模型强化学习（RL）来训练一个TSP代理。该代理通过与交通环境的交互学习最优的信号控制策略，而无需预先建立复杂的交通模型。当公交车进入交叉口附近的DSRC区域时，TSP代理接管信号控制，根据当前交通状况动态调整信号配时，以减少公交车通行时间。

技术框架：整体框架包含一个微观交通仿真环境（SUMO）和一个基于RL的交通信号控制器。首先，训练一个通用的RL交通信号控制器来优化整体交通效率。然后，在此基础上，开发一个基于事件的TSP代理。当公交车进入DSRC区域时，TSP代理从通用控制器接管控制权，执行TSP策略。仿真环境提供车辆位置、速度等信息，RL代理根据这些信息选择动作（例如，延长绿灯时间），并获得奖励（例如，减少公交车延误）。

关键创新：该研究的关键创新在于将深度强化学习应用于自适应公交信号优先控制，并结合车联网数据实现实时优化。与传统的基于数学规划的方法相比，该方法无需复杂的交通模型，能够更好地适应动态交通环境。此外，该研究采用了一种基于事件的控制策略，仅在公交车接近时激活TSP代理，从而减少了对普通交通的影响。

关键设计：TSP代理使用深度Q网络（DQN）作为其决策模型。状态空间包括公交车的位置、速度、与其他车辆的距离等信息。动作空间包括延长或缩短当前绿灯时间。奖励函数的设计旨在减少公交车延误，同时避免对普通交通造成过大的影响。具体而言，奖励函数包括公交车延误的负值和普通车辆延误的轻微惩罚项。网络结构采用多层感知机，参数通过经验回放和目标网络进行训练。

📊 实验亮点

实验结果表明，所提出的基于RL的TSP代理能够显著减少公交车通行时间，平均减少约21%。与具有TSP的感应信号控制相比，该代理在公交车通行时间方面也略有优势。此外，该方法在0.95的饱和率下对一般交通的影响很小，表明其在提高公交效率的同时，能够兼顾整体交通效益。

🎯 应用场景

该研究成果可应用于城市智能交通系统，提升公交运行效率，减少乘客出行时间，提高公交吸引力，从而鼓励更多人选择公共交通，缓解交通拥堵和环境污染。该方法具有良好的可扩展性，可以推广到更复杂的交通场景，例如多交叉口协调控制和多模式交通融合。

📄 摘要（原文）

Model free reinforcement learning (RL) provides a potential alternative to earlier formulations of adaptive transit signal priority (TSP) algorithms based on mathematical programming that require complex and nonlinear objective functions. This study extends RL - based traffic control to include TSP. Using a microscopic simulation environment and connected vehicle data, the study develops and tests a TSP event-based RL agent that assumes control from another developed RL - based general traffic signal controller. The TSP agent assumes control when transit buses enter the dedicated short-range communication (DSRC) zone of the intersection. This agent is shown to reduce the bus travel time by about 21%, with marginal impacts to general traffic at a saturation rate of 0.95. The TSP agent also shows slightly better bus travel time compared to actuated signal control with TSP. The architecture of the agent and simulation is selected considering the need to improve simulation run time efficiency.

Adaptive Transit Signal Priority based on Deep Reinforcement Learning and Connected Vehicles in a Traffic Microsimulation Environment

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理