Reinforcement Learning and Regret Bounds for Admission Control

📄 arXiv: 2406.04766v1 📥 PDF

作者: Lucas Weber, Ana Bušić, Jiamin Zhu

分类: cs.LG, math.OC, stat.ML

发布日期: 2024-06-07


💡 一句话要点

提出基于UCRL2的算法以优化M/M/c/S排队系统的接纳控制

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 接纳控制 排队系统 后悔界限 UCRL2 算法优化 资源管理

📋 核心要点

  1. 现有的强化学习算法在无折扣收益情况下,其期望后悔值的下界过于保守,难以在实际排队系统中应用。
  2. 本文提出了一种新算法,基于UCRL2,利用排队系统的特定结构来优化后悔值,从而提高算法的实用性。
  3. 实验结果表明,所提算法在有限服务器情况下的期望总后悔值显著低于传统方法,且在无限服务器情况下后悔值与缓冲区大小无关。

📝 摘要(中文)

本文研究了接纳控制问题,特别是在M/M/c/S排队系统中,考虑了具有m个作业类别及类别依赖奖励和持有成本的情况。针对无折扣收益的强化学习算法,期望后悔值的下界为$Ωig( ext{sqrt}(DXAT)ig)$,其中D为马尔可夫决策过程的直径,X为状态空间的大小,A为动作空间的大小,T为时间步数。由于排队系统的直径通常与缓冲区大小S呈指数关系,导致该下界在实际应用中难以使用。为此,本文提出了一种受UCRL2启发的算法,并利用问题结构将期望总后悔值上界为$O(S ext{log}T + ext{sqrt}(mT ext{log}T))$,在无限服务器情况下,后悔与S的依赖关系消失。

🔬 方法详解

问题定义:本文解决的是M/M/c/S排队系统中的接纳控制问题,现有方法在处理具有指数直径的排队系统时,后悔值的下界过于保守,导致实际应用受限。

核心思路:论文提出的算法灵感来源于UCRL2,通过利用排队系统的特定结构,优化后悔值的计算,从而实现更好的性能。

技术框架:整体架构包括状态空间的定义、动作选择策略、奖励和成本的计算,以及后悔值的更新机制。主要模块包括状态评估、动作选择和后悔值计算。

关键创新:最重要的创新在于通过问题结构的利用,显著降低了期望总后悔值的上界,与传统方法相比,能够在更复杂的排队系统中实现更优的性能。

关键设计:算法中关键参数包括缓冲区大小S、作业类别数m等,损失函数设计考虑了类别依赖的奖励和持有成本,确保算法在不同场景下的适应性。

📊 实验亮点

实验结果显示,所提算法在有限服务器情况下的期望总后悔值为$O(S ext{log}T + ext{sqrt}(mT ext{log}T))$,相比于传统方法有显著提升,且在无限服务器情况下后悔值与缓冲区大小S无关,展示了更好的适应性和效率。

🎯 应用场景

该研究的潜在应用领域包括电信网络、计算机系统资源管理及服务质量优化等。通过优化接纳控制策略,可以有效提升系统的资源利用率和用户满意度,具有重要的实际价值和广泛的应用前景。

📄 摘要(原文)

The expected regret of any reinforcement learning algorithm is lower bounded by $Ω\left(\sqrt{DXAT}\right)$ for undiscounted returns, where $D$ is the diameter of the Markov decision process, $X$ the size of the state space, $A$ the size of the action space and $T$ the number of time steps. However, this lower bound is general. A smaller regret can be obtained by taking into account some specific knowledge of the problem structure. In this article, we consider an admission control problem to an $M/M/c/S$ queue with $m$ job classes and class-dependent rewards and holding costs. Queuing systems often have a diameter that is exponential in the buffer size $S$, making the previous lower bound prohibitive for any practical use. We propose an algorithm inspired by UCRL2, and use the structure of the problem to upper bound the expected total regret by $O(S\log T + \sqrt{mT \log T})$ in the finite server case. In the infinite server case, we prove that the dependence of the regret on $S$ disappears.