RAST-MoE-RL: A Regime-Aware Spatio-Temporal MoE Framework for Deep Reinforcement Learning in Ride-Hailing

📄 arXiv: 2512.13727v1 📥 PDF

作者: Yuhan Tang, Kangxin Cui, Jung Ho Park, Yibo Zhao, Xuan Jiang, Haoze He, Dingyi Zhuang, Shenhao Wang, Jiangbo Yu, Haris Koutsopoulos, Jinhua Zhao

分类: cs.LG

发布日期: 2025-12-13


💡 一句话要点

提出RAST-MoE-RL框架,解决网约车中复杂时空动态下的自适应延迟匹配问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)

关键词: 网约车调度 强化学习 混合专家模型 时空建模 自适应延迟匹配

📋 核心要点

  1. 现有网约车调度方法难以有效捕捉复杂的时空交通模式,导致次优的匹配和接载延迟。
  2. RAST-MoE-RL框架利用Regime-Aware MDP和自注意力MoE编码器,实现专家自动特化,提升表示能力和计算效率。
  3. 实验表明,该框架在真实Uber数据上显著提升了奖励,降低了匹配和接载延迟,并展现了良好的鲁棒性。

📝 摘要(中文)

网约车平台面临在高度不确定的供需条件下平衡乘客等待时间和整体系统效率的挑战。自适应延迟匹配通过决定立即分配司机或批量处理请求,在匹配延迟和接载延迟之间进行权衡。由于结果会在具有随机动态的长时程中累积,因此强化学习(RL)是一个合适的框架。然而,现有方法通常过度简化交通动态或使用浅层编码器,从而错失了复杂的时空模式。我们引入了Regime-Aware Spatio-Temporal Mixture-of-Experts (RAST-MoE),它将自适应延迟匹配形式化为一个配备自注意力MoE编码器的regime-aware MDP。与单体网络不同,我们的专家可以自动专门化,从而提高表示能力,同时保持计算效率。一个物理信息拥塞代理保留了真实的密度-速度反馈,从而能够进行数百万次高效的rollout,而自适应奖励方案则可以防止病态策略。在真实世界的Uber轨迹数据(旧金山)上,我们的框架仅使用12M参数,就优于强大的基线,总奖励提高了13%以上,平均匹配和接载延迟分别降低了10%和15%。它展示了跨越未见需求regime的鲁棒性和稳定的训练。这些发现突出了MoE增强的RL在具有复杂时空动态的大规模决策中的潜力。

🔬 方法详解

问题定义:论文旨在解决网约车平台中,如何在不确定的供需条件下,通过自适应延迟匹配策略,最小化乘客等待时间和提高系统整体效率的问题。现有方法通常简化交通动态,或者使用浅层模型无法捕捉复杂的时空模式,导致调度效率低下。

核心思路:论文的核心思路是将自适应延迟匹配问题建模为 Regime-Aware MDP,并利用 Mixture-of-Experts (MoE) 结构来学习更有效的状态表示。通过让不同的专家专注于不同的交通状态(regime),可以提高模型对复杂时空动态的建模能力。

技术框架:RAST-MoE-RL 框架主要包含以下几个模块:1) Regime-Aware MDP:将环境建模为马尔可夫决策过程,并根据不同的交通状态(regime)调整策略。2) 自注意力 MoE 编码器:使用自注意力机制提取时空特征,并利用 MoE 结构让不同的专家学习不同的特征表示。3) 物理信息拥塞代理:利用物理信息来模拟交通拥堵情况,从而进行更有效的 rollout。4) 自适应奖励函数:设计自适应的奖励函数,防止模型学习到病态策略。

关键创新:该论文的关键创新在于将 MoE 结构引入到网约车调度的强化学习框架中,并结合 Regime-Aware MDP,使得模型能够更好地适应不同的交通状态。此外,物理信息拥塞代理和自适应奖励函数的设计也提高了模型的训练效率和鲁棒性。

关键设计:MoE 编码器使用自注意力机制提取时空特征,并包含多个专家网络。每个专家网络专注于学习不同的交通状态特征。通过门控网络(Gating Network)来选择激活哪些专家。奖励函数的设计考虑了匹配延迟、接载延迟和系统效率等因素,并根据不同的交通状态进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RAST-MoE-RL 框架在真实世界的 Uber 数据集上取得了显著的性能提升。与基线方法相比,总奖励提高了 13% 以上,平均匹配延迟降低了 10%,平均接载延迟降低了 15%。此外,该框架还展现了良好的鲁棒性,能够在未见过的需求模式下保持稳定的性能。

🎯 应用场景

该研究成果可应用于实际的网约车平台,提升调度效率,降低乘客等待时间,并提高平台整体的运营效率。此外,该方法也可以推广到其他具有复杂时空动态的资源分配问题,例如物流调度、智能交通管理等领域,具有广阔的应用前景。

📄 摘要(原文)

Ride-hailing platforms face the challenge of balancing passenger waiting times with overall system efficiency under highly uncertain supply-demand conditions. Adaptive delayed matching creates a trade-off between matching and pickup delays by deciding whether to assign drivers immediately or batch requests. Since outcomes accumulate over long horizons with stochastic dynamics, reinforcement learning (RL) is a suitable framework. However, existing approaches often oversimplify traffic dynamics or use shallow encoders that miss complex spatiotemporal patterns. We introduce the Regime-Aware Spatio-Temporal Mixture-of-Experts (RAST-MoE), which formalizes adaptive delayed matching as a regime-aware MDP equipped with a self-attention MoE encoder. Unlike monolithic networks, our experts specialize automatically, improving representation capacity while maintaining computational efficiency. A physics-informed congestion surrogate preserves realistic density-speed feedback, enabling millions of efficient rollouts, while an adaptive reward scheme guards against pathological strategies. With only 12M parameters, our framework outperforms strong baselines. On real-world Uber trajectory data (San Francisco), it improves total reward by over 13%, reducing average matching and pickup delays by 10% and 15% respectively. It demonstrates robustness across unseen demand regimes and stable training. These findings highlight the potential of MoE-enhanced RL for large-scale decision-making with complex spatiotemporal dynamics.