RL-TIME: Reinforcement Learning-based Task Replication in Multicore Embedded Systems

作者: Roozbeh Siyadatzadeh, Mohsen Ansari, Muhammad Shafique, Alireza Ejlali

分类: cs.LG, eess.SY

发布日期: 2025-03-16

💡 一句话要点

提出RL-TIME，一种基于强化学习的多核嵌入式系统任务复制方法，优化功耗和实时性。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 强化学习 嵌入式系统 任务复制 多核系统 可靠性 功耗优化 热安全功率 动态调度

📋 核心要点

现有嵌入式系统任务复制方法通常基于最坏情况进行设计，导致资源浪费和过热问题。
RL-TIME利用强化学习动态调整任务副本数量，兼顾可靠性目标和热安全功率约束。
实验表明，RL-TIME在降低功耗、提高可调度性和满足热安全功率约束方面优于现有方法。

📝 摘要（中文）

嵌入式系统驱动着许多现代应用，通常需要满足严格的可靠性、实时性、散热和功耗要求。任务复制可以通过复制任务的执行来处理瞬时和永久性故障，从而提高可靠性，但盲目地应用复制往往会导致过度的开销和更高的温度。现有的设计时方法通常基于最坏情况选择副本数量，这会在正常运行下浪费资源。本文提出了一种基于强化学习的方法RL-TIME，该方法根据实际系统条件动态决定副本数量。通过在运行时同时考虑可靠性目标和核心级热安全功率（TSP）约束，RL-TIME调整复制策略以避免不必要的开销和过热。实验结果表明，与最先进的方法相比，RL-TIME降低了63%的功耗，提高了53%的可调度性，并且更频繁地满足TSP约束（72%）。

🔬 方法详解

问题定义：论文旨在解决多核嵌入式系统中任务复制策略的优化问题。现有方法，如静态任务复制，通常基于最坏情况进行设计，导致在正常负载下资源浪费，功耗过高，甚至违反热安全功率（TSP）约束。这些方法缺乏对运行时系统状态的适应性，无法在可靠性和资源利用率之间取得平衡。

核心思路：RL-TIME的核心思路是利用强化学习（RL）来动态地调整任务的副本数量。通过将系统状态（如核心温度、任务负载等）作为输入，RL智能体学习在满足可靠性目标的同时，最小化功耗并避免违反TSP约束。这种动态调整策略能够根据实际运行情况自适应地分配资源，从而提高资源利用率和系统性能。

技术框架：RL-TIME的整体框架包含以下几个主要模块：1) 环境建模：定义了系统的状态空间（如核心温度、任务负载、已用副本数量等）、动作空间（增加或减少副本数量）和奖励函数（基于可靠性、功耗和TSP约束）。2) RL智能体：使用深度Q网络（DQN）作为RL智能体，学习最优的任务复制策略。DQN接收系统状态作为输入，输出每个动作的Q值，智能体根据Q值选择动作。3) 任务调度器：根据RL智能体选择的动作，动态地调整任务的副本数量，并将任务分配到不同的核心上执行。4) 监控模块：实时监控系统状态，并将状态信息反馈给RL智能体。

关键创新：RL-TIME的关键创新在于将强化学习应用于多核嵌入式系统的任务复制问题，实现了动态的任务复制策略。与传统的静态方法相比，RL-TIME能够根据实际系统状态自适应地调整副本数量，从而在可靠性、功耗和TSP约束之间取得更好的平衡。此外，RL-TIME还考虑了核心级的TSP约束，避免了因过度复制导致的过热问题。

关键设计：RL-TIME的关键设计包括：1) 状态空间：包括核心温度、任务负载、已用副本数量等，用于描述系统的当前状态。2) 动作空间：包括增加或减少副本数量，用于控制任务复制策略。3) 奖励函数：基于可靠性目标、功耗和TSP约束进行设计，用于指导RL智能体的学习。奖励函数的设计需要权衡不同目标之间的重要性。4) DQN网络结构：使用多层感知机（MLP）作为DQN的网络结构，输入为状态向量，输出为每个动作的Q值。5) 训练过程：使用经验回放和目标网络等技术来稳定DQN的训练过程。

🖼️ 关键图片

📊 实验亮点

实验结果表明，与最先进的方法相比，RL-TIME在功耗、可调度性和TSP约束满足方面均有显著提升。具体来说，RL-TIME降低了63%的功耗，提高了53%的可调度性，并且更频繁地满足TSP约束（72%）。这些结果表明，RL-TIME能够有效地提高多核嵌入式系统的性能和可靠性。

🎯 应用场景

RL-TIME适用于对可靠性、实时性和功耗有严格要求的嵌入式系统，例如自动驾驶、航空航天、工业控制等领域。通过动态调整任务副本数量，RL-TIME可以提高系统的容错能力，降低功耗，并避免过热问题，从而提高系统的整体性能和可靠性。未来，该方法可以扩展到更复杂的系统架构和应用场景，例如异构多核系统和云计算环境。

📄 摘要（原文）

Embedded systems power many modern applications and must often meet strict reliability, real-time, thermal, and power requirements. Task replication can improve reliability by duplicating a task's execution to handle transient and permanent faults, but blindly applying replication often leads to excessive overhead and higher temperatures. Existing design-time methods typically choose the number of replicas based on worst-case conditions, which can waste resources under normal operation. In this paper, we present RL-TIME, a reinforcement learning-based approach that dynamically decides the number of replicas according to actual system conditions. By considering both the reliability target and a core-level Thermal Safe Power (TSP) constraint at run-time, RL-TIME adapts the replication strategy to avoid unnecessary overhead and overheating. Experimental results show that, compared to state-of-the-art methods, RL-TIME reduces power consumption by 63%, increases schedulability by 53%, and respects TSP 72% more often.

RL-TIME: Reinforcement Learning-based Task Replication in Multicore Embedded Systems

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理