Coordinating Ride-Pooling with Public Transit using Reward-Guided Conservative Q-Learning: An Offline Training and Online Fine-Tuning Reinforcement Learning Framework

📄 arXiv: 2501.14199v1 📥 PDF

作者: Yulong Hu, Tingting Dong, Sen Li

分类: cs.LG, cs.AI, cs.ET

发布日期: 2025-01-24


💡 一句话要点

提出基于奖励引导的保守Q学习算法,协调拼车与公共交通,提升多模式交通系统效率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 拼车 公共交通 多模式交通 离线学习 在线微调 保守Q学习 奖励引导

📋 核心要点

  1. 现有拼车系统与公共交通协调不足,导致效率低下,传统强化学习方法数据效率低,难以适应大规模系统。
  2. 提出奖励引导的保守Q学习(RG-CQL)框架,利用离线数据学习奖励关系,指导在线探索,提高数据效率和系统性能。
  3. 在曼哈顿真实数据集上验证,RG-CQL在系统奖励方面优于基线方法,数据效率提升显著,并有效降低了高估误差。

📝 摘要(中文)

本文提出了一种名为奖励引导的保守Q学习(RG-CQL)的新型强化学习(RL)框架,旨在增强多模式交通网络中拼车与公共交通的协调。我们将每辆拼车车辆建模为一个由马尔可夫决策过程(MDP)控制的智能体,并提出了一个离线训练和在线微调的RL框架,以学习多模式交通系统的最优运营决策,包括乘客-车辆匹配、乘客下车地点选择和车辆路径决策,并提高数据效率。在离线训练阶段,我们开发了一个保守双深度Q网络(CDDQN)作为动作执行器,以及一个基于监督学习的奖励估计器,称为引导网络,以从数据批次中提取关于动作-奖励关系的宝贵见解。在在线微调阶段,引导网络作为探索指导,帮助CDDQN有效且保守地探索未知的状态-动作对。通过使用曼哈顿真实数据的案例研究证明了我们算法的有效性。结果表明,将拼车与公共交通相结合,在系统奖励方面分别优于单独乘坐与公共交通协调以及没有交通协调的拼车两种基线情况17%和22%。此外,我们创新的离线训练和在线微调框架与具有足够探索预算的传统在线RL方法相比,数据效率显著提高了81.3%,总奖励增加了4.3%,高估误差减少了5.6%。实验结果进一步表明,RG-CQL有效地解决了大规模拼车系统与交通集成中从离线到在线RL的过渡挑战。

🔬 方法详解

问题定义:论文旨在解决多模式交通网络中,如何高效协调拼车与公共交通系统的问题。现有方法,特别是传统的在线强化学习方法,在数据效率方面存在瓶颈,难以适应大规模、高复杂度的交通系统。此外,直接应用离线强化学习可能由于数据分布差异导致性能下降。

核心思路:论文的核心思路是利用离线数据学习动作-奖励关系,并将其作为在线探索的指导,从而提高强化学习算法的数据效率和泛化能力。通过保守Q学习,避免过度乐观的估计,提高策略的安全性。

技术框架:RG-CQL框架包含离线训练和在线微调两个阶段。在离线训练阶段,使用Conservative Double Deep Q Network (CDDQN)作为动作执行器,并训练一个Guider Network来估计奖励。Guider Network通过监督学习从离线数据中学习动作-奖励关系。在线微调阶段,Guider Network作为探索指导,引导CDDQN探索未知的状态-动作对。

关键创新:该方法最重要的创新点在于结合了奖励引导和保守Q学习。Guider Network能够从离线数据中提取有价值的奖励信息,并将其用于指导在线探索,从而提高了数据效率。保守Q学习则通过约束Q值的估计,避免了过度乐观的估计,提高了策略的鲁棒性。

关键设计:CDDQN使用Double Deep Q Network (DDQN)结构,并引入了保守项来约束Q值的估计。Guider Network是一个监督学习模型,输入状态和动作,输出预测的奖励。损失函数包括Q值的均方误差损失和保守项损失。在线微调阶段,Guider Network的输出被用于调整探索策略,例如,增加对Guider Network预测奖励较高的动作的探索概率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RG-CQL在系统奖励方面分别优于单独乘坐与公共交通协调以及没有交通协调的拼车两种基线情况17%和22%。与传统的在线RL方法相比,RG-CQL的数据效率提高了81.3%,总奖励增加了4.3%,高估误差减少了5.6%。这些结果验证了RG-CQL在协调拼车与公共交通方面的有效性和优越性。

🎯 应用场景

该研究成果可应用于智能交通系统,优化城市出行方案,提高交通效率,减少拥堵和排放。通过协调拼车与公共交通,可以为乘客提供更便捷、经济、环保的出行选择,提升城市居民的生活质量。该框架也可推广到其他需要离线训练和在线微调的强化学习应用场景。

📄 摘要(原文)

This paper introduces a novel reinforcement learning (RL) framework, termed Reward-Guided Conservative Q-learning (RG-CQL), to enhance coordination between ride-pooling and public transit within a multimodal transportation network. We model each ride-pooling vehicle as an agent governed by a Markov Decision Process (MDP) and propose an offline training and online fine-tuning RL framework to learn the optimal operational decisions of the multimodal transportation systems, including rider-vehicle matching, selection of drop-off locations for passengers, and vehicle routing decisions, with improved data efficiency. During the offline training phase, we develop a Conservative Double Deep Q Network (CDDQN) as the action executor and a supervised learning-based reward estimator, termed the Guider Network, to extract valuable insights into action-reward relationships from data batches. In the online fine-tuning phase, the Guider Network serves as an exploration guide, aiding CDDQN in effectively and conservatively exploring unknown state-action pairs. The efficacy of our algorithm is demonstrated through a realistic case study using real-world data from Manhattan. We show that integrating ride-pooling with public transit outperforms two benchmark cases solo rides coordinated with transit and ride-pooling without transit coordination by 17% and 22% in the achieved system rewards, respectively. Furthermore, our innovative offline training and online fine-tuning framework offers a remarkable 81.3% improvement in data efficiency compared to traditional online RL methods with adequate exploration budgets, with a 4.3% increase in total rewards and a 5.6% reduction in overestimation errors. Experimental results further demonstrate that RG-CQL effectively addresses the challenges of transitioning from offline to online RL in large-scale ride-pooling systems integrated with transit.