AGMARL-DKS: An Adaptive Graph-Enhanced Multi-Agent Reinforcement Learning for Dynamic Kubernetes Scheduling

作者: Hamed Hamzeh

分类: cs.DC, cs.LG, cs.MA

发布日期: 2026-03-12

💡 一句话要点

提出AGMARL-DKS，用于动态Kubernetes调度，提升资源利用率和容错性。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: Kubernetes调度 多智能体强化学习 图神经网络 资源管理 云计算

📋 核心要点

现有基于强化学习的Kubernetes调度器在扩展性、目标权重的动态调整以及对集群压力的感知方面存在不足。
AGMARL-DKS采用多智能体架构，利用图神经网络进行全局状态表示，并使用应力感知的词典排序策略进行决策。
实验结果表明，AGMARL-DKS在容错性、资源利用率和成本方面优于默认调度器，尤其适用于批处理和关键任务负载。

📝 摘要（中文）

本文提出了一种自适应图增强多智能体强化学习动态Kubernetes调度器(AGMARL-DKS)，旨在解决现有基于强化学习的调度器在大型异构集群中的扩展性、静态目标权重以及缺乏动态应变能力等问题。AGMARL-DKS将调度问题建模为多智能体合作问题，每个集群节点作为一个智能体，采用中心化训练和去中心化执行。利用图神经网络(GNN)构建全局集群状态表示，实现上下文感知。采用应力感知的词典排序策略，替代静态线性权重，以权衡不同目标。在Google Kubernetes Engine (GKE)上的评估表明，AGMARL-DKS在容错性、利用率和成本方面显著优于默认调度器，尤其是在调度批处理和关键任务工作负载时。

🔬 方法详解

问题定义：论文旨在解决Kubernetes集群中动态调度的问题。现有的基于强化学习的调度器存在三个主要痛点：一是集中式智能体扩展性差；二是多目标奖励函数采用静态线性组合；三是缺乏对集群压力的感知和自适应能力。这些限制导致资源利用率不高，容错性不足，成本控制不佳。

核心思路：论文的核心思路是将Kubernetes调度问题建模为一个多智能体强化学习问题，每个节点作为一个智能体，通过合作来优化全局调度策略。利用图神经网络学习全局集群状态，使每个智能体能够感知上下文信息。采用应力感知的词典排序策略，动态调整不同优化目标的优先级，以适应集群的动态变化。

技术框架：AGMARL-DKS的整体框架包括以下几个主要模块：1) 状态表示模块：使用图神经网络(GNN)对集群状态进行编码，生成每个节点的嵌入表示。2) 多智能体强化学习模块：每个节点作为一个智能体，基于GNN编码的状态信息，学习调度策略。采用中心化训练和去中心化执行的方式，提高训练效率和泛化能力。3) 奖励函数模块：定义多个优化目标，如资源利用率、容错性和成本。4) 决策模块：采用应力感知的词典排序策略，根据集群压力动态调整不同目标的优先级，做出调度决策。

关键创新：论文的关键创新在于以下三个方面：1) 多智能体架构：将调度问题分解为多个智能体的合作问题，提高了扩展性。2) 图神经网络状态表示：利用GNN学习全局集群状态，使智能体能够感知上下文信息。3) 应力感知的词典排序策略：动态调整优化目标的优先级，提高了对集群动态变化的适应性。与现有方法的本质区别在于，AGMARL-DKS能够更好地处理大规模异构集群的动态调度问题。

关键设计：GNN的具体结构未知，但推测使用了节点特征（如CPU利用率、内存使用量等）和节点之间的连接关系（如网络拓扑）作为输入。奖励函数可能包括资源利用率、任务完成率、节点健康状况等指标。词典排序策略的具体实现未知，但推测是根据集群压力动态调整不同奖励的优先级。

🖼️ 关键图片

📊 实验亮点

实验结果表明，AGMARL-DKS在Google Kubernetes Engine (GKE)上显著优于默认调度器。具体而言，AGMARL-DKS在容错性方面提升了XX%（具体数值未知），资源利用率提高了YY%（具体数值未知），成本降低了ZZ%（具体数值未知）。尤其是在调度批处理和关键任务工作负载时，AGMARL-DKS的优势更加明显。

🎯 应用场景

AGMARL-DKS可应用于各种云原生应用场景，尤其适用于需要高可用性和资源利用率的场景，如大规模在线服务、批处理任务和关键任务应用。该研究有助于提高云计算平台的资源利用率、降低运营成本，并提升应用的稳定性和可靠性。未来可进一步研究如何将AGMARL-DKS应用于边缘计算和混合云环境。

📄 摘要（原文）

State-of-the-art cloud-native applications require intelligent schedulers that can effectively balance system stability, resource utilisation, and associated costs. While Kubernetes provides feasibility-based placement by default, recent research efforts have explored the use of reinforcement learning (RL) for more intelligent scheduling decisions. However, current RL-based schedulers have three major limitations. First, most of these schedulers use monolithic centralised agents, which are non-scalable for large heterogeneous clusters. Second, the ones that use multi-objective reward functions assume simple, static, linear combinations of the objectives. Third, no previous work has produced a stress-aware scheduler that can react adaptively to dynamic conditions. To address these gaps in current research, we propose the Adaptive Graph-enhanced Multi-Agent Reinforcement Learning Dynamic Kubernetes Scheduler (AGMARL-DKS). AGMARL-DKS addresses these gaps by introducing three major innovations. First, we construct a scalable solution by treating the scheduling challenge as a cooperative multi-agent problem, where every cluster node operates as an agent, employing centralised training methods before decentralised execution. Second, to be context-aware and yet decentralised, we use a Graph Neural Network (GNN) to build a state representation of the global cluster context at each agent. This represents an improvement over methods that rely solely on local observations. Finally, to make trade-offs between these objectives, we use a stress-aware lexicographical ordering policy instead of a simple, static linear weighting of these objectives. The evaluations in Google Kubernetes Engine (GKE) reveal that AGMARL-DKS significantly outperforms the default scheduler in terms of fault tolerance, utilisation, and cost, especially in scheduling batch and mission-critical workloads.

AGMARL-DKS: An Adaptive Graph-Enhanced Multi-Agent Reinforcement Learning for Dynamic Kubernetes Scheduling

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理