RL-TIME: Reinforcement Learning-based Task Replication in Multicore Embedded Systems
作者: Roozbeh Siyadatzadeh, Mohsen Ansari, Muhammad Shafique, Alireza Ejlali
分类: cs.LG, eess.SY
发布日期: 2025-03-16
💡 一句话要点
提出RL-TIME,一种基于强化学习的多核嵌入式系统任务复制方法,优化功耗和实时性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 嵌入式系统 任务复制 多核系统 可靠性 功耗优化 热安全功率 动态调度
📋 核心要点
- 现有嵌入式系统任务复制方法通常基于最坏情况进行设计,导致资源浪费和过热问题。
- RL-TIME利用强化学习动态调整任务副本数量,兼顾可靠性目标和热安全功率约束。
- 实验表明,RL-TIME在降低功耗、提高可调度性和满足热安全功率约束方面优于现有方法。
📝 摘要(中文)
嵌入式系统驱动着许多现代应用,通常需要满足严格的可靠性、实时性、散热和功耗要求。任务复制可以通过复制任务的执行来处理瞬时和永久性故障,从而提高可靠性,但盲目地应用复制往往会导致过度的开销和更高的温度。现有的设计时方法通常基于最坏情况选择副本数量,这会在正常运行下浪费资源。本文提出了一种基于强化学习的方法RL-TIME,该方法根据实际系统条件动态决定副本数量。通过在运行时同时考虑可靠性目标和核心级热安全功率(TSP)约束,RL-TIME调整复制策略以避免不必要的开销和过热。实验结果表明,与最先进的方法相比,RL-TIME降低了63%的功耗,提高了53%的可调度性,并且更频繁地满足TSP约束(72%)。
🔬 方法详解
问题定义:论文旨在解决多核嵌入式系统中任务复制策略的优化问题。现有方法,如静态任务复制,通常基于最坏情况进行设计,导致在正常负载下资源浪费,功耗过高,甚至违反热安全功率(TSP)约束。这些方法缺乏对运行时系统状态的适应性,无法在可靠性和资源利用率之间取得平衡。
核心思路:RL-TIME的核心思路是利用强化学习(RL)来动态地调整任务的副本数量。通过将系统状态(如核心温度、任务负载等)作为输入,RL智能体学习在满足可靠性目标的同时,最小化功耗并避免违反TSP约束。这种动态调整策略能够根据实际运行情况自适应地分配资源,从而提高资源利用率和系统性能。
技术框架:RL-TIME的整体框架包含以下几个主要模块:1) 环境建模:定义了系统的状态空间(如核心温度、任务负载、已用副本数量等)、动作空间(增加或减少副本数量)和奖励函数(基于可靠性、功耗和TSP约束)。2) RL智能体:使用深度Q网络(DQN)作为RL智能体,学习最优的任务复制策略。DQN接收系统状态作为输入,输出每个动作的Q值,智能体根据Q值选择动作。3) 任务调度器:根据RL智能体选择的动作,动态地调整任务的副本数量,并将任务分配到不同的核心上执行。4) 监控模块:实时监控系统状态,并将状态信息反馈给RL智能体。
关键创新:RL-TIME的关键创新在于将强化学习应用于多核嵌入式系统的任务复制问题,实现了动态的任务复制策略。与传统的静态方法相比,RL-TIME能够根据实际系统状态自适应地调整副本数量,从而在可靠性、功耗和TSP约束之间取得更好的平衡。此外,RL-TIME还考虑了核心级的TSP约束,避免了因过度复制导致的过热问题。
关键设计:RL-TIME的关键设计包括:1) 状态空间:包括核心温度、任务负载、已用副本数量等,用于描述系统的当前状态。2) 动作空间:包括增加或减少副本数量,用于控制任务复制策略。3) 奖励函数:基于可靠性目标、功耗和TSP约束进行设计,用于指导RL智能体的学习。奖励函数的设计需要权衡不同目标之间的重要性。4) DQN网络结构:使用多层感知机(MLP)作为DQN的网络结构,输入为状态向量,输出为每个动作的Q值。5) 训练过程:使用经验回放和目标网络等技术来稳定DQN的训练过程。
🖼️ 关键图片
📊 实验亮点
实验结果表明,与最先进的方法相比,RL-TIME在功耗、可调度性和TSP约束满足方面均有显著提升。具体来说,RL-TIME降低了63%的功耗,提高了53%的可调度性,并且更频繁地满足TSP约束(72%)。这些结果表明,RL-TIME能够有效地提高多核嵌入式系统的性能和可靠性。
🎯 应用场景
RL-TIME适用于对可靠性、实时性和功耗有严格要求的嵌入式系统,例如自动驾驶、航空航天、工业控制等领域。通过动态调整任务副本数量,RL-TIME可以提高系统的容错能力,降低功耗,并避免过热问题,从而提高系统的整体性能和可靠性。未来,该方法可以扩展到更复杂的系统架构和应用场景,例如异构多核系统和云计算环境。
📄 摘要(原文)
Embedded systems power many modern applications and must often meet strict reliability, real-time, thermal, and power requirements. Task replication can improve reliability by duplicating a task's execution to handle transient and permanent faults, but blindly applying replication often leads to excessive overhead and higher temperatures. Existing design-time methods typically choose the number of replicas based on worst-case conditions, which can waste resources under normal operation. In this paper, we present RL-TIME, a reinforcement learning-based approach that dynamically decides the number of replicas according to actual system conditions. By considering both the reliability target and a core-level Thermal Safe Power (TSP) constraint at run-time, RL-TIME adapts the replication strategy to avoid unnecessary overhead and overheating. Experimental results show that, compared to state-of-the-art methods, RL-TIME reduces power consumption by 63%, increases schedulability by 53%, and respects TSP 72% more often.