Fully Dynamic Rebalancing in Dockless Bike-Sharing Systems via Deep Reinforcement Learning

📄 arXiv: 2605.14501v1 📥 PDF

作者: Edoardo Scarpel, Alberto Pettena, Matteo Cederle, Federico Chiariotti, Marco Fabris, Gian Antonio Susto

分类: eess.SY, cs.AI, cs.LG

发布日期: 2026-05-14

备注: 6 pages, 5 figures, 1 table, accepted at the 23rd IFAC World Congress, Busan, South Korea, Aug. 23-26, 2026. Open invited track 9-131: "Control and Optimization for Smart Cities"


💡 一句话要点

提出基于深度强化学习的完全动态再平衡方法,解决共享单车系统可用性问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)

关键词: 深度强化学习 共享单车 动态再平衡 马尔可夫决策过程 智能交通

📋 核心要点

  1. 现有无桩共享单车系统再平衡方法通常采用周期性全局干预,效率低且难以应对实时需求变化。
  2. 论文提出基于深度强化学习的动态再平衡策略,通过学习时空重要性评分,实时引导车辆进行局部优化。
  3. 实验表明,该方法能显著降低可用性故障,减少空间不平等,并以更小的车队规模实现更好的再平衡效果。

📝 摘要(中文)

本文提出了一种完全动态的深度强化学习(DRL)方法,用于再平衡无桩共享单车系统,克服了周期性、系统范围干预的局限性。我们将该服务建模为基于图的模拟器,并将再平衡问题转化为马尔可夫决策过程。DRL智能体实时引导单辆卡车,执行局部化的取车、还车和充电操作,这些操作由时空重要性评分指导。在真实世界数据上的实验表明,该方法以最小的车队规模显著减少了可用性故障,同时限制了空间不平等和移动沙漠。我们的方法证明了基于学习的再平衡对于高效可靠的共享微出行的价值。

🔬 方法详解

问题定义:论文旨在解决无桩共享单车系统中车辆分布不均导致的用户需求无法满足的问题,即可用性故障。现有方法通常采用周期性、系统范围的再平衡策略,无法有效应对实时变化的需求,导致资源浪费和用户体验下降。

核心思路:论文的核心思路是将再平衡问题建模为马尔可夫决策过程(MDP),并利用深度强化学习(DRL)训练一个智能体,使其能够根据当前系统的状态(例如,各区域的车辆数量、用户需求等)实时决策,动态地调整车辆分布,从而最大化系统的整体效益。

技术框架:整体框架包括一个基于图的共享单车系统模拟器和一个DRL智能体。模拟器负责模拟用户需求、车辆移动和再平衡操作。DRL智能体通过与模拟器交互学习,其输入是系统的状态信息(例如,各区域的车辆数量、用户需求等),输出是卡车的行动决策(例如,前往哪个区域取车、还车或充电)。智能体根据时空重要性评分来指导行动,该评分反映了不同区域在不同时间段的需求紧急程度。

关键创新:论文的关键创新在于提出了一个完全动态的再平衡方法,能够实时响应系统的变化,避免了周期性干预的局限性。此外,论文还设计了一种基于时空重要性评分的行动选择机制,能够有效地引导智能体进行局部优化,从而提高再平衡效率。

关键设计:论文采用深度Q网络(DQN)作为DRL智能体的网络结构。状态空间包括各区域的车辆数量、用户需求、时间信息等。动作空间包括前往哪个区域取车、还车或充电。奖励函数的设计旨在鼓励智能体减少可用性故障,同时限制空间不平等和移动沙漠。具体参数设置和损失函数细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法能够显著减少可用性故障,在真实世界数据集上,以最小的车队规模实现了有效的再平衡。具体性能数据未知,但论文强调了在限制空间不平等和移动沙漠方面的积极作用。该方法优于传统的周期性再平衡策略。

🎯 应用场景

该研究成果可应用于实际的无桩共享单车系统,提升车辆的利用率和用户的满意度。通过动态再平衡,可以有效减少车辆供不应求的情况,降低运营成本,并为城市交通规划提供数据支持。此外,该方法也可推广到其他共享出行服务,如共享电动滑板车等。

📄 摘要(原文)

This paper proposes a fully dynamic Deep Reinforcement Learning (DRL) method for rebalancing dockless bike-sharing systems, overcoming the limitations of periodic, system-wide interventions. We model the service through a graph-based simulator and cast rebalancing as a Markov decision process. A DRL agent routes a single truck in real time, executing localized pick-up, drop-off, and charging actions guided by spatiotemporal criticality scores. Experiments on real-world data show significant reductions in availability failures with a minimal fleet size, while limiting spatial inequality and mobility deserts. Our approach demonstrates the value of learning-based rebalancing for efficient and reliable shared micromobility.