Mutual Information as Intrinsic Reward of Reinforcement Learning Agents for On-demand Ride Pooling

📄 arXiv: 2312.15195v2 📥 PDF

作者: Xianjie Zhang, Jiahao Sun, Chen Gong, Kai Wang, Yifei Cao, Hao Chen, Hao Chen, Yu Liu

分类: cs.AI, cs.LG, eess.SY

发布日期: 2023-12-23 (更新: 2024-01-07)

备注: Accepted by AAMAS 2024


💡 一句话要点

提出基于互信息的强化学习框架,解决网约车拼车场景下的车辆调度问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 互信息 车辆调度 网约车拼车 按需出行

📋 核心要点

  1. 现有网约车拼车算法通常只考虑收入最大化,导致分布不均的区域难以获得服务。
  2. 论文提出将城市划分为区域,利用强化学习调度车辆,并引入互信息作为内在奖励。
  3. 实验表明,该框架在真实数据集上能显著提升收入,平均提升幅度达到3%。

📝 摘要(中文)

本文提出了一种用于网约车拼车任务的车辆调度框架。该框架将城市划分为离散的调度区域,并使用强化学习(RL)算法在这些区域内调度车辆。为了提高车辆和订单分布之间的相关性,从而确保分布不均匀的请求也能获得服务,本文还将车辆和订单分布之间的互信息(MI)作为RL算法的内在奖励。在真实出租车数据集上的实验结果表明,与现有的最佳按需拼车方法相比,该框架可以显著提高收入,平均提高幅度高达3%。

🔬 方法详解

问题定义:论文旨在解决网约车拼车服务中,如何合理调度车辆,在最大化平台收入的同时,保证所有区域的乘客都能获得服务的问题。现有方法主要关注收入最大化,忽略了请求分布不均的情况,导致部分区域的乘客难以打到车,影响用户体验和平台公平性。

核心思路:论文的核心思路是将车辆调度问题建模为强化学习问题,并通过优化车辆的调度策略,使得车辆的分布与订单的分布更加匹配。为了鼓励车辆探索更广泛的区域,并提高车辆与订单分布的相关性,论文引入了互信息作为强化学习的内在奖励。

技术框架:该框架首先将城市划分为多个离散的调度区域。然后,使用强化学习算法训练一个车辆调度策略,该策略根据当前各个区域的车辆和订单分布,决定如何调度车辆。强化学习算法的目标是最大化累积奖励,奖励包括外在奖励(例如收入)和内在奖励(即车辆和订单分布之间的互信息)。

关键创新:该论文的关键创新在于将互信息作为强化学习的内在奖励。互信息能够衡量两个随机变量之间的相关性,将其作为内在奖励可以鼓励车辆探索与订单分布更相关的区域,从而提高车辆和订单的匹配效率,并保证所有区域的乘客都能获得服务。

关键设计:论文中,互信息的计算方式需要根据实际的车辆和订单分布进行设计。强化学习算法可以选择常见的算法,如Q-learning或Actor-Critic算法。此外,还需要仔细设计奖励函数,平衡外在奖励和内在奖励之间的权重,以达到最佳的调度效果。

📊 实验亮点

实验结果表明,该框架在真实出租车数据集上,与现有的最佳按需拼车方法相比,能够显著提高收入,平均提高幅度高达3%。这表明引入互信息作为内在奖励能够有效地提高车辆和订单的匹配效率,从而提升平台整体性能。

🎯 应用场景

该研究成果可应用于各种按需出行服务平台,例如网约车、出租车等。通过优化车辆调度策略,可以提高平台收入,改善用户体验,并提升资源利用率。此外,该方法还可以扩展到其他资源分配问题,例如共享单车调度、物流配送等。

📄 摘要(原文)

The emergence of on-demand ride pooling services allows each vehicle to serve multiple passengers at a time, thus increasing drivers' income and enabling passengers to travel at lower prices than taxi/car on-demand services (only one passenger can be assigned to a car at a time like UberX and Lyft). Although on-demand ride pooling services can bring so many benefits, ride pooling services need a well-defined matching strategy to maximize the benefits for all parties (passengers, drivers, aggregation companies and environment), in which the regional dispatching of vehicles has a significant impact on the matching and revenue. Existing algorithms often only consider revenue maximization, which makes it difficult for requests with unusual distribution to get a ride. How to increase revenue while ensuring a reasonable assignment of requests brings a challenge to ride pooling service companies (aggregation companies). In this paper, we propose a framework for vehicle dispatching for ride pooling tasks, which splits the city into discrete dispatching regions and uses the reinforcement learning (RL) algorithm to dispatch vehicles in these regions. We also consider the mutual information (MI) between vehicle and order distribution as the intrinsic reward of the RL algorithm to improve the correlation between their distributions, thus ensuring the possibility of getting a ride for unusually distributed requests. In experimental results on a real-world taxi dataset, we demonstrate that our framework can significantly increase revenue up to an average of 3\% over the existing best on-demand ride pooling method.