When Does Deep RL Beat Calibrated Baselines? A Benchmark Study on Adaptive Resource Control

作者: Guilin Zhang, Chuanyi Sun, Kai Zhao, Shahryar Sarkani, John Fossaceca

分类: cs.LG, cs.AI, cs.DC

发布日期: 2026-05-26

💡 一句话要点

RLScale-Bench基准测试揭示：校准后的规则控制器在自适应资源控制中优于主流深度强化学习算法。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 自适应资源控制 基准测试 Kubernetes 规则控制器

📋 核心要点

现有基于深度强化学习的自适应资源控制方法，缺乏与良好校准的传统规则控制器的有效对比。
论文提出RLScale-Bench基准测试，通过可复现的实验，系统性地评估DRL算法在资源控制任务中的性能。
实验结果表明，良好校准的规则控制器在多种工作负载下优于主流DRL算法，揭示了DRL在该领域的挑战。

📝 摘要（中文）

本文提出了RLScale-Bench，一个用于自适应资源控制中深度强化学习的可复现基准测试和评估协议。该基准测试旨在研究深度强化学习（DRL）在何时能够超越校准后的基线方法。研究中，智能体在成本和服务级别约束下，为动态工作负载分配计算资源。作者在Kubernetes Horizontal Pod Autoscaling上实例化了该基准测试，并评估了PPO、DQN、A2C、SAC、TD3和DDPG等六种主流DRL算法在六种工作负载模式和五个随机种子下的性能（共240次运行），并探究了分布偏移泛化能力。研究结果表明：（1）校准后的控制器在所有六种工作负载上都实现了最低的成本，但在突发和闪存流量方面落后于最佳的RL智能体；（2）由于动作空间不匹配，离散动作算法在约束违反方面比连续动作算法高出一到两个数量级；（3）没有单一算法在所有工作负载中占据主导地位，排名变化高达四个位置。基于RL的资源控制的瓶颈不是算法选择，而是基线校准、奖励工程和实际评估协议。

🔬 方法详解

问题定义：论文旨在解决自适应资源控制问题，即在成本和服务级别约束下，为动态工作负载分配计算资源。现有方法，特别是基于深度强化学习的方法，通常没有与经过良好校准的传统规则控制器进行充分比较，导致对DRL的实际价值评估不足。此外，缺乏统一的基准测试和评估协议，使得不同DRL算法之间的比较困难，并且难以推广到实际应用中。

核心思路：论文的核心思路是建立一个可复现的基准测试环境RLScale-Bench，并使用校准后的规则控制器作为强基线，与主流DRL算法进行公平比较。通过系统性的实验，揭示DRL在自适应资源控制中的优势和局限性，并确定影响DRL性能的关键因素。

技术框架：RLScale-Bench基准测试包含以下主要组成部分：1) 六种不同的工作负载模式，模拟实际应用中的各种流量模式；2) 六种主流DRL算法（PPO、DQN、A2C、SAC、TD3和DDPG），采用匹配的架构、训练预算和奖励函数；3) 一个校准后的规则控制器，作为强基线；4) 一个评估协议，用于评估算法的成本、服务级别约束违反情况和泛化能力；5) 在Kubernetes Horizontal Pod Autoscaling上的实例化，以验证基准测试的实际应用价值。

关键创新：论文的关键创新在于提出了RLScale-Bench基准测试，它提供了一个可复现、公平且具有实际意义的平台，用于评估DRL算法在自适应资源控制中的性能。与以往的研究相比，RLScale-Bench更加注重基线校准、奖励工程和实际评估协议，从而能够更准确地评估DRL的实际价值。

关键设计：在实验设计方面，论文采用了多种策略来确保公平性和可比性。例如，所有DRL算法都使用了相同的架构、训练预算和奖励函数。此外，论文还对规则控制器进行了仔细校准，以确保其性能达到最佳水平。奖励函数的设计考虑了成本和服务级别约束，并采用了合适的权重来平衡两者之间的关系。论文还评估了算法在不同工作负载模式下的泛化能力，以验证其鲁棒性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，校准后的规则控制器在所有六种工作负载上都实现了最低的成本，但在突发和闪存流量方面，最佳的RL智能体表现更好。离散动作算法在约束违反方面比连续动作算法高出一到两个数量级。没有单一算法在所有工作负载中占据主导地位，排名变化高达四个位置。这些结果表明，基线校准、奖励工程和实际评估协议是影响DRL性能的关键因素。

🎯 应用场景

该研究成果可应用于云计算、边缘计算等资源受限的环境中，帮助优化资源分配策略，降低成本，提高服务质量。RLScale-Bench基准测试可以作为评估和比较不同资源控制算法的工具，促进该领域的研究和发展。未来的研究可以探索更复杂的奖励函数、更先进的DRL算法以及更真实的模拟环境，以进一步提高资源控制的效率和鲁棒性。

📄 摘要（原文）

A properly calibrated rule-based autoscaler can beat every one of six mainstream deep reinforcement learning (DRL) algorithms on cost across every workload we test - so when, if ever, does DRL actually help? We study this in RLScale-Bench, a reproducible benchmark and evaluation protocol for DRL on adaptive resource control, where an agent allocates compute to a dynamic workload under cost and service-level constraints. We evaluate PPO, DQN, A2C, SAC, TD3, and DDPG under matched architectures, training budgets, and reward functions against a calibrated rule-based baseline across six workload patterns and five seeds (240 runs), instantiate the benchmark on Kubernetes Horizontal Pod Autoscaling, and probe distribution-shift generalization. Three findings challenge common assumptions: (i) the calibrated controller achieves the lowest cost on all six workloads, though it trails the best RL agents on bursty and flash traffic; (ii) discrete-action algorithms outperform continuous-action ones by one to two orders of magnitude in constraint violations due to action-space mismatch; and (iii) no single algorithm dominates across workloads, with rankings shifting by up to four positions. The bottleneck in RL-based resource control is not algorithm selection but baseline calibration, reward engineering, and realistic evaluation protocols.

When Does Deep RL Beat Calibrated Baselines? A Benchmark Study on Adaptive Resource Control

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理