Semi-on-Demand Transit Feeders with Shared Autonomous Vehicles and Reinforcement-Learning-Based Zonal Dispatching Control

📄 arXiv: 2509.01883v1 📥 PDF

作者: Max T. M. Ng, Roman Engelhardt, Florian Dandl, Hani S. Mahmassani, Klaus Bogenberger

分类: cs.LG, eess.SY, math.OC

发布日期: 2025-09-02

备注: 6 pages, 9 figures, published in 2024 IEEE 27th International Conference on Intelligent Transportation Systems (ITSC), Edmonton, Canada, 24-27 September 2024

期刊: 2024 IEEE 27th International Conference on Intelligent Transportation Systems (ITSC)

DOI: 10.1109/ITSC58415.2024.10920214


💡 一句话要点

提出基于强化学习的共享自动驾驶车辆半按需交通接驳服务

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 共享自动驾驶 强化学习 交通调度 半按需服务 公共交通 低密度地区 智能交通

📋 核心要点

  1. 核心问题:现有的公共交通系统在低密度地区的可达性不足,传统固定路线服务无法灵活应对需求波动。
  2. 方法要点:提出了一种结合共享自动驾驶车辆与强化学习的半按需接驳服务,通过动态调度提高服务效率。
  3. 实验或效果:实验结果表明,采用该方法后,服务乘客数量增加16%,成本提升13%,显示出显著的效率提升。

📝 摘要(中文)

本文开发了一种使用共享自动驾驶车辆(SAVs)和基于强化学习(RL)的区域调度控制的半按需交通接驳服务。该服务结合了固定路线交通的成本效益与需求响应交通的适应性,以改善低密度地区的可达性。SAVs从终点出发,首先进行预定的固定停靠,然后在预定的灵活路线区域内提供按需接送。我们的深度RL模型根据实时需求波动和运营动态地将车辆分配到细分的灵活路线区域,采用了近端策略优化算法。通过在德国慕尼黑的真实公交线路上进行代理基础的模拟,结果显示经过高效训练的RL模型,半按需服务在动态区域控制下比传统固定路线服务平均多服务16%的乘客,且总体成本提高13%。

🔬 方法详解

问题定义:本文旨在解决低密度地区公共交通的可达性问题,现有的固定路线服务无法灵活应对乘客需求的变化,导致资源浪费和服务不足。

核心思路:提出了一种结合共享自动驾驶车辆(SAVs)与强化学习(RL)技术的半按需交通接驳服务,利用RL模型动态调度车辆,以适应实时需求变化。

技术框架:整体架构包括三个主要模块:固定停靠阶段、灵活路线接送阶段和基于RL的动态调度模块。车辆首先在固定路线停靠,然后根据需求在灵活区域内进行接送。

关键创新:最重要的技术创新在于将深度强化学习应用于交通调度,通过近端策略优化算法实现动态区域控制,显著提高了服务效率和乘客满意度。

关键设计:在模型训练中,采用了特定的损失函数以优化调度策略,网络结构设计为深度神经网络,能够处理复杂的需求预测和调度决策。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,经过强化学习模型的高效训练,半按需服务在动态区域控制下比传统固定路线服务平均多服务16%的乘客,且总体成本仅提高13%。此外,RL控制带来的效率提升使得乘客数量增加2.4%,成本仅增加1.4%。

🎯 应用场景

该研究的潜在应用领域包括城市公共交通系统、共享出行服务和智能交通管理。通过提高低密度地区的交通可达性,能够有效缓解交通拥堵,提升公共交通的使用率,具有重要的社会和经济价值。未来,该方法还可扩展至多模式交通系统的第一英里和最后一英里问题解决方案。

📄 摘要(原文)

This paper develops a semi-on-demand transit feeder service using shared autonomous vehicles (SAVs) and zonal dispatching control based on reinforcement learning (RL). This service combines the cost-effectiveness of fixed-route transit with the adaptability of demand-responsive transport to improve accessibility in lower-density areas. Departing from the terminus, SAVs first make scheduled fixed stops, then offer on-demand pick-ups and drop-offs in a pre-determined flexible-route area. Our deep RL model dynamically assigns vehicles to subdivided flexible-route zones in response to real-time demand fluctuations and operations, using a policy gradient algorithm - Proximal Policy Optimization. The methodology is demonstrated through agent-based simulations on a real-world bus route in Munich, Germany. Results show that after efficient training of the RL model, the semi-on-demand service with dynamic zonal control serves 16% more passengers at 13% higher generalized costs on average compared to traditional fixed-route service. The efficiency gain brought by RL control brings 2.4% more passengers at 1.4% higher costs. This study not only showcases the potential of integrating SAV feeders and machine learning techniques into public transit, but also sets the groundwork for further innovations in addressing first-mile-last-mile problems in multimodal transit systems.