Rack Position Optimization in Large-Scale Heterogeneous Data Centers

📄 arXiv: 2504.00277v1 📥 PDF

作者: Chang-Lin Chen, Jiayu Chen, Tian Lan, Zhaoxia Zhao, Hongbo Dong, Vaneet Aggarwal

分类: cs.AI, cs.DC, cs.LG, cs.NI, math.OC

发布日期: 2025-03-31

备注: Extended version of paper accepted at The International Conference on Automated Planning and Scheduling (ICAPS) 2025


💡 一句话要点

提出基于DRL的两层优化框架,解决大规模异构数据中心机架位置优化问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 数据中心优化 机架位置优化 深度强化学习 混合整数规划 启发式算法

📋 核心要点

  1. 传统MIP方法在数据中心机架位置优化中面临可扩展性挑战,启发式方法则易陷入局部最优,难以兼顾效率与容错。
  2. 论文提出一种两层优化框架,利用DRL指导梯度启发式搜索,实现全局优化与局部精细调整的结合,提升解的质量。
  3. 实验表明,该方法在求解速度和优化目标上显著优于MIP和传统启发式算法,尤其在大规模场景下优势明显。

📝 摘要(中文)

为了应对快速增长的AI计算需求带来的硬件安装和维护挑战,本文探索了通过战略性机架定位来平衡运营效率和容错能力的数据中心资源优化管理方法,同时考虑了多样化的资源和位置。传统的混合整数规划(MIP)方法通常面临可扩展性问题,而启发式方法可能导致显著的次优结果。为了解决这些问题,本文提出了一种新颖的两层优化框架,该框架使用高层深度强化学习(DRL)模型来指导低层基于梯度的启发式算法进行局部搜索。高层DRL智能体采用Leader Reward来优化机架类型排序,而低层启发式算法有效地将机架映射到位置,从而最大限度地减少移动次数并确保容错的资源分配。该方法可扩展到超过10万个位置和100种机架类型。实验结果表明,我们的方法在目标值上平均优于基于梯度的启发式算法7%,优于MIP求解器30%以上。在20分钟的时间限制内,我们的方法实现了100%的成功率,而MIP的成功率为97.5%,并且我们的方法仅用2分钟即可完成,而MIP需要1630分钟(即提高了近4个数量级)。与在时间限制和高惩罚下表现出性能变异性的MIP求解器不同,我们的算法始终提供稳定、高效的结果,这对于大规模数据中心管理至关重要。

🔬 方法详解

问题定义:论文旨在解决大规模异构数据中心中机架位置的优化问题。现有方法,如混合整数规划(MIP),在处理大规模问题时计算复杂度过高,难以在合理时间内找到最优解。而传统的启发式算法虽然速度较快,但容易陷入局部最优,无法保证解的质量,且难以同时考虑运营效率和容错性。

核心思路:论文的核心思路是将全局优化和局部搜索相结合。利用深度强化学习(DRL)在高层进行决策,指导低层的梯度启发式算法进行局部搜索。DRL负责确定机架类型的最佳排序,从而引导启发式算法更快地找到全局最优解附近的位置。这种分层结构既能保证全局搜索的方向性,又能利用启发式算法的快速局部搜索能力。

技术框架:该方法采用两层优化框架。第一层是高层DRL智能体,负责学习机架类型的最佳排序策略。该智能体接收数据中心的状态信息作为输入,输出机架类型的排序。第二层是低层梯度启发式算法,负责根据DRL提供的机架类型排序,将机架映射到具体的位置。该启发式算法通过迭代优化,最小化移动次数,并确保资源在数据中心内的容错分布。两层之间通过Leader Reward机制进行连接,DRL智能体根据启发式算法的表现获得奖励,从而学习到更优的排序策略。

关键创新:该方法最重要的创新点在于将DRL与梯度启发式算法相结合,形成一个两层优化框架。DRL负责全局决策,启发式算法负责局部优化,充分发挥了两者的优势。此外,Leader Reward机制的设计也至关重要,它使得DRL能够有效地指导启发式算法的搜索方向。

关键设计:高层DRL智能体采用Actor-Critic架构,使用深度神经网络作为函数逼近器。状态空间包括数据中心资源分布、机架类型等信息,动作空间为机架类型的排序。奖励函数的设计至关重要,除了考虑优化目标(如移动次数和资源分布均匀性)外,还引入了Leader Reward,即根据启发式算法的优化结果对DRL智能体进行奖励。低层梯度启发式算法则采用基于梯度的优化方法,通过迭代调整机架的位置,最小化目标函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在目标值上平均优于基于梯度的启发式算法7%,优于MIP求解器30%以上。在20分钟的时间限制内,该方法实现了100%的成功率,而MIP的成功率为97.5%,并且该方法仅用2分钟即可完成,而MIP需要1630分钟,速度提升近4个数量级。这表明该方法在求解速度和优化效果上均具有显著优势,尤其适用于大规模数据中心。

🎯 应用场景

该研究成果可应用于大规模异构数据中心的资源管理和优化,帮助数据中心运营商更有效地部署和维护硬件资源,降低运营成本,提高服务质量。此外,该方法也可推广到其他资源分配和调度问题,例如云计算资源调度、智能制造生产调度等。

📄 摘要(原文)

As rapidly growing AI computational demands accelerate the need for new hardware installation and maintenance, this work explores optimal data center resource management by balancing operational efficiency with fault tolerance through strategic rack positioning considering diverse resources and locations. Traditional mixed-integer programming (MIP) approaches often struggle with scalability, while heuristic methods may result in significant sub-optimality. To address these issues, this paper presents a novel two-tier optimization framework using a high-level deep reinforcement learning (DRL) model to guide a low-level gradient-based heuristic for local search. The high-level DRL agent employs Leader Reward for optimal rack type ordering, and the low-level heuristic efficiently maps racks to positions, minimizing movement counts and ensuring fault-tolerant resource distribution. This approach allows scalability to over 100,000 positions and 100 rack types. Our method outperformed the gradient-based heuristic by 7\% on average and the MIP solver by over 30\% in objective value. It achieved a 100\% success rate versus MIP's 97.5\% (within a 20-minute limit), completing in just 2 minutes compared to MIP's 1630 minutes (i.e., almost 4 orders of magnitude improvement). Unlike the MIP solver, which showed performance variability under time constraints and high penalties, our algorithm consistently delivered stable, efficient results - an essential feature for large-scale data center management.