Optimising Call Centre Operations using Reinforcement Learning: Value Iteration versus Proximal Policy Optimisation

📄 arXiv: 2507.18398v1 📥 PDF

作者: Kwong Ho Li, Wathsala Karunarathne

分类: cs.AI

发布日期: 2025-07-24

备注: 10 pages


💡 一句话要点

利用强化学习优化呼叫中心运营:价值迭代与近端策略优化对比

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 呼叫中心 呼叫路由 价值迭代 近端策略优化 离散事件仿真 技能型路由

📋 核心要点

  1. 传统呼叫中心路由策略难以动态适应客户需求和员工状态变化,导致资源浪费和客户体验下降。
  2. 论文提出利用强化学习,将呼叫路由问题建模为马尔可夫决策过程,通过学习优化路由策略。
  3. 实验结果表明,近端策略优化(PPO)相较于价值迭代(VI)和随机策略,能显著降低客户等待时间和员工空闲时间。

📝 摘要(中文)

本文研究了强化学习在呼叫中心呼叫路由优化中的应用,旨在最小化客户等待时间和员工空闲时间。比较了两种方法:一种是基于模型的价值迭代(VI)方法,它在已知系统动态下工作;另一种是无模型的近端策略优化(PPO)方法,它从经验中学习。对于基于模型的方法,使用了一个理论模型;而对于无模型学习,则开发了一个结合离散事件仿真(DES)和OpenAI Gym环境的仿真模型。两种模型都将问题构建为技能型路由(SBR)框架内的马尔可夫决策过程(MDP),其中客户到达服从泊松分布,服务和放弃时间服从指数分布。为了评估策略,使用仿真模型评估了随机策略、VI策略和PPO策略。经过1000次测试,PPO始终获得最高的奖励,以及最低的客户等待时间和员工空闲时间,尽管需要更长的训练时间。

🔬 方法详解

问题定义:论文旨在解决呼叫中心运营中客户等待时间过长和员工空闲时间过多的问题。传统的呼叫路由方法通常基于静态规则或简单的优先级排序,无法有效地适应动态变化的客户需求和服务能力,导致资源利用率低下和客户满意度下降。

核心思路:论文的核心思路是将呼叫路由问题建模为一个马尔可夫决策过程(MDP),并利用强化学习算法来学习最优的路由策略。通过智能地将客户分配给合适的座席,从而最小化客户等待时间和员工空闲时间,提高呼叫中心的整体效率和服务质量。

技术框架:整体框架包括两个主要部分:基于模型的价值迭代(VI)方法和无模型的近端策略优化(PPO)方法。对于VI,使用理论模型描述系统动态;对于PPO,则构建一个结合离散事件仿真(DES)和OpenAI Gym环境的仿真模型。两种方法都将问题建模为技能型路由(SBR)框架内的MDP,其中状态表示系统状态(如队列长度、座席状态),动作表示路由决策,奖励函数旨在最小化等待时间和空闲时间。

关键创新:论文的关键创新在于对比了基于模型的VI方法和无模型的PPO方法在呼叫中心路由优化中的性能。传统的VI方法需要精确的系统模型,而PPO方法可以直接从仿真环境中学习,无需显式建模。实验结果表明,PPO方法在实际应用中具有更好的性能和适应性。

关键设计:在PPO方法中,使用了Actor-Critic架构,其中Actor网络用于生成策略,Critic网络用于评估策略。奖励函数的设计至关重要,需要平衡客户等待时间和员工空闲时间。仿真环境使用离散事件仿真(DES)来模拟呼叫中心的动态过程,包括客户到达、服务和放弃等事件。具体参数设置(如学习率、折扣因子、探索率等)需要根据实际情况进行调整。

📊 实验亮点

实验结果表明,经过1000次测试,PPO策略始终优于随机策略和价值迭代(VI)策略,实现了最低的客户等待时间和员工空闲时间。虽然PPO需要更长的训练时间,但其在实际应用中的性能优势明显,证明了强化学习在呼叫中心优化中的有效性。

🎯 应用场景

该研究成果可应用于实际呼叫中心,通过智能路由提高运营效率和服务质量。该方法能够根据客户需求和座席技能,动态调整路由策略,减少客户等待时间,提高座席利用率。此外,该研究也为其他服务行业的资源优化问题提供了借鉴,例如医院排班、物流调度等。

📄 摘要(原文)

This paper investigates the application of Reinforcement Learning (RL) to optimise call routing in call centres to minimise client waiting time and staff idle time. Two methods are compared: a model-based approach using Value Iteration (VI) under known system dynamics, and a model-free approach using Proximal Policy Optimisation (PPO) that learns from experience. For the model-based approach, a theoretical model is used, while a simulation model combining Discrete Event Simulation (DES) with the OpenAI Gym environment is developed for model-free learning. Both models frame the problem as a Markov Decision Process (MDP) within a Skills-Based Routing (SBR) framework, with Poisson client arrivals and exponentially distributed service and abandonment times. For policy evaluation, random, VI, and PPO policies are evaluated using the simulation model. After 1,000 test episodes, PPO consistently achives the highest rewards, along with the lowest client waiting time and staff idle time, despite requiring longer training time.