A Reinforcement Learning-Based Task Mapping Method to Improve the Reliability of Clustered Manycores

📄 arXiv: 2412.19340v1 📥 PDF

作者: Fatemeh Hossein-Khani, Omid Akbari

分类: cs.LG, cs.AI

发布日期: 2024-12-26


💡 一句话要点

提出一种基于强化学习的任务映射方法,提升集群多核系统的可靠性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多核系统 任务映射 强化学习 可靠性 老化机制

📋 核心要点

  1. 多核系统规模增大导致可靠性管理面临挑战,现有方法难以有效应对老化机制的影响。
  2. 采用基于强化学习的任务映射方法,通过最小化热变化来提升多核系统的可靠性。
  3. 实验结果表明,该方法在平均失效时间(MTTF)上相比现有技术提升高达27%。

📝 摘要(中文)

随着多核系统规模的增大,在满足性能需求的同时管理可靠性面临着严峻的挑战。这些系统也更容易受到诸如负偏压温度不稳定性(NBTI)、热载流子注入(HCI)、热循环(TC)以及电迁移(EM)等多种老化机制的影响。本文提出了一种基于强化学习(RL)的任务映射方法,旨在提高多核系统的可靠性,同时考虑上述老化机制。该方法包括三个步骤:装箱、任务到箱的映射以及任务到核心的映射。首先,采用基于噪声的密度空间聚类应用(DBSCAN)聚类方法,根据核心温度构成若干簇(箱)。然后,使用Q-learning算法进行后两个步骤,将到达的任务映射到核心上,使得所有箱中的热变化最小。与现有技术相比,该方法在运行时执行,无需离线计算任何参数。在16、32和64核系统上,使用SPLASH2和PARSEC基准测试套件应用程序评估了该技术的有效性。结果表明,与最先进的任务映射技术相比,平均失效时间(MTTF)提高了高达27%。

🔬 方法详解

问题定义:论文旨在解决多核系统中由于老化机制(如NBTI、HCI、TC和EM)导致的可靠性问题。现有任务映射方法通常没有充分考虑这些老化机制对系统寿命的影响,或者需要离线计算大量参数,难以适应动态变化的工作负载。

核心思路:论文的核心思路是利用强化学习,在运行时动态地将任务映射到不同的核心上,目标是最小化核心之间的热变化,从而减缓老化过程,延长系统的平均失效时间(MTTF)。通过降低温度差异,可以减少由于温度梯度引起的老化速率差异,从而提高整体可靠性。

技术框架:该方法包含三个主要步骤:1) 装箱(Bin Packing):使用DBSCAN聚类算法,根据核心的温度将核心划分为若干个簇(箱)。2) 任务到箱的映射(Task-to-Bin Mapping):使用Q-learning算法,决定将新到达的任务分配到哪个箱。3) 任务到核心的映射(Task-to-Core Mapping):在选定的箱中,再次使用Q-learning算法,决定将任务分配到该箱中的哪个核心。

关键创新:该方法的主要创新在于使用强化学习在运行时动态地进行任务映射,无需离线计算参数,能够适应动态变化的工作负载。此外,将任务映射问题分解为两个Q-learning过程(任务到箱,箱到核心),降低了状态空间维度,提高了学习效率。

关键设计:DBSCAN聚类算法用于根据核心温度进行动态分组。Q-learning算法的状态空间包括任务的特征和核心或箱的温度信息。奖励函数的设计目标是最小化任务分配后核心之间的温度变化。具体来说,奖励函数可以设计为温度变化量的负值,使得Q-learning算法学习到能够降低温度变化的策略。Q-learning算法使用ε-greedy策略进行探索,并使用折扣因子和学习率来平衡探索和利用。

📊 实验亮点

实验结果表明,该方法在16、32和64核系统上,使用SPLASH2和PARSEC基准测试套件应用程序进行评估,与最先进的任务映射技术相比,平均失效时间(MTTF)提高了高达27%。这表明该方法在提高多核系统可靠性方面具有显著优势。

🎯 应用场景

该研究成果可应用于高性能计算、嵌入式系统、数据中心等领域,尤其适用于对可靠性有较高要求的场景。通过动态任务映射,可以延长系统寿命,降低维护成本,并提高系统的整体性能和稳定性。未来的研究可以进一步探索更复杂的老化模型和更高效的强化学习算法,以实现更优的任务映射策略。

📄 摘要(原文)

The increasing scale of manycore systems poses significant challenges in managing reliability while meeting performance demands. Simultaneously, these systems become more susceptible to different aging mechanisms such as negative-bias temperature instability (NBTI), hot carrier injection (HCI), and thermal cycling (TC), as well as the electromigration (EM) phenomenon. In this paper, we propose a reinforcement learning (RL)-based task mapping method to improve the reliability of manycore systems considering the aforementioned aging mechanisms, which consists of three steps including bin packing, task-to-bin mapping, and task-to-core mapping. In the initial step, a density-based spatial application with noise (DBSCAN) clustering method is employed to compose some clusters (bins) based on the cores temperature. Then, the Q-learning algorithm is used for the two latter steps, to map the arrived task on a core such that the minimum thermal variation is occurred among all the bins. Compared to the state-of-the-art works, the proposed method is performed during runtime without requiring any parameter to be calculated offline. The effectiveness of the proposed technique is evaluated on 16, 32, and 64 cores systems using SPLASH2 and PARSEC benchmark suite applications. The results demonstrate up to 27% increase in the mean time to failure (MTTF) compared to the state-of-the-art task mapping techniques.