Deep-Dispatch: A Deep Reinforcement Learning-Based Vehicle Dispatch Algorithm for Advanced Air Mobility
作者: Elaheh Sabziyan Varnousfaderani, Syed A. M. Shihab, Esrat F. Dulia
分类: cs.AI, cs.LG
发布日期: 2023-12-17
备注: 14 figures
💡 一句话要点
提出基于深度强化学习的Deep-Dispatch算法,解决高级空中交通中电动垂直起降飞行器的调度问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 深度强化学习 高级空中交通 电动垂直起降飞行器 车辆调度 多智能体系统
📋 核心要点
- 现有eVTOL调度优化模型在问题规模增大时计算时间过长,难以实际应用。
- 提出基于深度强化学习的Deep-Dispatch算法,通过学习优化调度策略,最大化运营利润。
- 多智能体Deep-Dispatch算法在计算效率和性能上均优于单智能体算法,并逼近最优调度策略。
📝 摘要(中文)
本文针对高级空中交通(AAM)中电动垂直起降飞行器(eVTOL)的调度问题,提出了一种基于深度强化学习的车辆调度算法Deep-Dispatch。由于eVTOL需要频繁充电、起降场数量有限,以及时变的需求和电价,使得eVTOL的调度问题极具挑战性。为了克服传统优化模型计算耗时过长的问题,本文开发了单智能体和多智能体深度Q学习eVTOL调度算法,目标是最大化运营利润。通过构建一个基于eVTOL的乘客运输仿真环境,并在36个数值案例中评估了算法的性能。结果表明,多智能体算法能够以显著更少的计算开销逼近最优调度策略,并且在利润生成和训练时间方面均优于单智能体算法。
🔬 方法详解
问题定义:论文旨在解决高级空中交通中电动垂直起降飞行器(eVTOL)的调度问题。现有优化模型在问题规模增大时,计算时间呈指数级增长,难以满足实际应用的需求。此外,eVTOL的充电需求、起降场地的限制以及动态变化的需求和电价,都增加了调度问题的复杂性。
核心思路:论文的核心思路是利用深度强化学习(DRL)来学习最优的eVTOL调度策略。通过将调度问题建模为马尔可夫决策过程(MDP),并使用深度Q学习(DQN)算法训练智能体,使其能够根据当前状态(如eVTOL的位置、电量、乘客需求等)做出最优的调度决策,从而最大化运营利润。多智能体方法通过多个智能体协同决策,进一步提升了调度效率和性能。
技术框架:整体框架包含一个eVTOL乘客运输仿真环境和DRL调度算法。仿真环境模拟了真实的空中交通场景,包括vertiport的位置、eVTOL的飞行、乘客的需求等。DRL调度算法则包括单智能体DQN和多智能体DQN两种。智能体通过与仿真环境交互,获取状态信息并执行动作(如调度eVTOL到某个vertiport),然后获得奖励(如运营利润)。
关键创新:论文的关键创新在于将深度强化学习应用于eVTOL调度问题,并提出了多智能体DQN算法。与传统的优化模型相比,DRL算法能够处理大规模、动态变化的调度问题,并且具有更快的计算速度。多智能体DQN算法通过多个智能体协同决策,能够更好地适应复杂的调度环境,并取得更好的性能。
关键设计:论文使用了深度Q网络(DQN)作为智能体的策略网络。状态空间包括eVTOL的位置、电量、乘客需求等信息。动作空间包括将eVTOL调度到不同的vertiport。奖励函数设计为运营利润,包括乘客运输收入、充电成本等。在多智能体DQN中,每个智能体负责控制一架或多架eVTOL,并通过共享经验或进行通信来协同决策。具体的网络结构和超参数设置在论文中进行了详细描述。
📊 实验亮点
实验结果表明,多智能体Deep-Dispatch算法能够以显著更少的计算开销逼近最优调度策略。在36个数值案例中,多智能体算法在利润生成和训练时间方面均优于单智能体算法。与基准优化模型相比,多智能体算法在保证较高利润的同时,大大缩短了计算时间,使其更适用于实际应用。
🎯 应用场景
该研究成果可应用于未来的高级空中交通系统,用于优化电动垂直起降飞行器的调度,提高运营效率和盈利能力。通过智能调度,可以减少eVTOL的充电等待时间,提高乘客的出行效率,并降低运营成本。此外,该方法还可以扩展到其他交通运输领域,如无人机配送、自动驾驶出租车等。
📄 摘要(原文)
Near future air taxi operations with electric vertical take-off and landing (eVTOL) aircraft will be constrained by the need for frequent recharging of eVTOLs, limited takeoff and landing pads in vertiports, and subject to time-varying demand and electricity prices, making the eVTOL dispatch problem unique and particularly challenging to solve. Previously, we have developed optimization models to address this problem. Such optimization models however suffer from prohibitively high computational run times when the scale of the problem increases, making them less practical for real world implementation. To overcome this issue, we have developed two deep reinforcement learning-based eVTOL dispatch algorithms, namely single-agent and multi-agent deep Q-learning eVTOL dispatch algorithms, where the objective is to maximize operating profit. An eVTOL-based passenger transportation simulation environment was built to assess the performance of our algorithms across $36$ numerical cases with varying number of eVTOLs, vertiports, and demand. The results indicate that the multi-agent eVTOL dispatch algorithm can closely approximate the optimal dispatch policy with significantly less computational expenses compared to the benchmark optimization model. The multi-agent algorithm was found to outperform the single-agent counterpart with respect to both profits generated and training time.