Improving Mixed-Criticality Scheduling with Reinforcement Learning

作者: Muhammad El-Mahdy, Nourhan Sakr, Rodrigo Carrasco

分类: cs.LG, cs.AI, cs.MA, eess.SY

发布日期: 2025-04-04 (更新: 2025-04-08)

备注: This work was submitted to the 32nd International Conference on Real-Time Networks and Systems (RTNS) on June 8, 2024

💡 一句话要点

提出基于强化学习的混合关键性系统调度方法，提升任务完成率。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 强化学习 混合关键性系统 实时调度 非抢占式调度 马尔可夫决策过程

📋 核心要点

现有混合关键性系统调度方法难以在复杂动态环境下实现高效调度，尤其是在非抢占式调度中。
论文将调度问题建模为马尔可夫决策过程，利用强化学习训练智能体，生成接近最优的调度策略。
实验表明，该方法显著提高了任务完成率，尤其是在高关键性任务上，验证了其有效性和可扩展性。

📝 摘要（中文）

本文提出了一种新颖的强化学习（RL）方法，用于在具有不同速度处理器的混合关键性（MC）系统上进行调度。在[1]的基础上，我们将他们的工作扩展到解决非抢占式调度问题，该问题已知是NP-hard问题。通过将此调度挑战建模为马尔可夫决策过程（MDP），我们开发了一个RL agent，能够为实时MC系统生成接近最优的调度方案。我们的基于RL的调度器在保持整体系统性能的同时，优先考虑高关键性任务。通过大量的实验，我们证明了我们方法的可扩展性和有效性。RL调度器显著提高了任务完成率，在100,000个合成数据和真实数据实例中，在不同的系统条件下，总体任务完成率达到约80%，高关键性任务完成率达到85%。此外，在没有性能下降的稳定条件下，调度器实现了94%的总体任务完成率和93%的高关键性任务完成率。这些结果突出了基于RL的调度器在实时和安全关键应用中的潜力，为处理复杂和动态的调度场景提供了显著的改进。

🔬 方法详解

问题定义：论文旨在解决混合关键性系统中非抢占式任务调度问题。现有方法在处理复杂和动态的调度场景时，难以保证高关键性任务的完成率，并且难以达到最优的调度方案。非抢占式调度问题本身是NP-hard问题，传统的启发式算法难以找到全局最优解。

核心思路：论文的核心思路是将调度问题建模成马尔可夫决策过程（MDP），利用强化学习算法训练一个智能体，使其能够学习到最优或接近最优的调度策略。通过奖励函数的设计，引导智能体优先完成高关键性任务，同时兼顾整体系统性能。

技术框架：整体框架包括以下几个主要模块：1) 环境建模：将混合关键性系统和调度过程建模为MDP，定义状态空间、动作空间和奖励函数。2) 智能体设计：选择合适的强化学习算法（具体算法未知），构建智能体。3) 训练过程：通过与环境的交互，不断优化智能体的策略。4) 调度执行：使用训练好的智能体进行实时调度。

关键创新：该方法将强化学习应用于混合关键性系统调度，能够自适应地学习最优调度策略，无需人工设计复杂的启发式规则。与传统方法相比，该方法能够更好地处理复杂和动态的调度场景，提高任务完成率。

关键设计：论文中关键的设计包括：1) 状态空间的设计，需要能够充分描述系统的状态，包括任务的到达时间、截止时间、关键性级别等。2) 动作空间的设计，定义智能体可以采取的调度动作。3) 奖励函数的设计，需要能够引导智能体优先完成高关键性任务，同时兼顾整体系统性能。具体的参数设置、损失函数、网络结构等技术细节未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该RL调度器在各种系统条件下显著提高了任务完成率。在100,000个合成数据和真实数据实例中，总体任务完成率达到约80%，高关键性任务完成率达到85%。在没有性能下降的稳定条件下，总体任务完成率达到94%，高关键性任务完成率达到93%。这些结果表明，该方法在实际应用中具有很大的潜力。

🎯 应用场景

该研究成果可应用于各种实时和安全关键系统，例如航空航天、自动驾驶、工业控制等领域。通过优化任务调度，可以提高系统的可靠性和安全性，降低系统故障的风险。未来，该方法可以进一步扩展到更复杂的调度场景，例如多处理器调度、分布式调度等。

📄 摘要（原文）

This paper introduces a novel reinforcement learning (RL) approach to scheduling mixed-criticality (MC) systems on processors with varying speeds. Building upon the foundation laid by [1], we extend their work to address the non-preemptive scheduling problem, which is known to be NP-hard. By modeling this scheduling challenge as a Markov Decision Process (MDP), we develop an RL agent capable of generating near-optimal schedules for real-time MC systems. Our RL-based scheduler prioritizes high-critical tasks while maintaining overall system performance. Through extensive experiments, we demonstrate the scalability and effectiveness of our approach. The RL scheduler significantly improves task completion rates, achieving around 80% overall and 85% for high-criticality tasks across 100,000 instances of synthetic data and real data under varying system conditions. Moreover, under stable conditions without degradation, the scheduler achieves 94% overall task completion and 93% for high-criticality tasks. These results highlight the potential of RL-based schedulers in real-time and safety-critical applications, offering substantial improvements in handling complex and dynamic scheduling scenarios.

Improving Mixed-Criticality Scheduling with Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理