Machine Learning Guided Cooling Optimization for Data Centers
作者: Shrenik Jadhav, Zheng Liu
分类: eess.SY, stat.AP
发布日期: 2026-01-05
备注: 10 pages, 11 figures
💡 一句话要点
提出基于物理信息的机器学习框架,优化数据中心冷却能耗。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 数据中心冷却 机器学习 能源优化 梯度提升 反事实分析 物理信息 能耗预测
📋 核心要点
- 数据中心冷却系统能耗高,现有方法难以有效识别和减少能源浪费。
- 利用物理信息指导机器学习,构建代理模型量化冷却能耗,并进行反事实分析。
- 实验表明,该框架能识别并减少高达96%的冷却能源浪费,具有实际应用价值。
📝 摘要(中文)
为了数据中心可靠运行,高效冷却至关重要。然而,冷却系统效率低下会导致过度能耗。本文提出了一种三阶段、基于物理信息的机器学习框架,用于识别和减少高性能计算设施中的冷却能源浪费。利用Frontier百亿亿次超级计算机一年的10分钟分辨率运行数据,我们首先训练一个单调约束梯度提升代理模型,根据冷却剂流量、温度和服务器功率预测设施辅助功率。该代理模型实现了0.026 MW的平均绝对误差,并预测了98.7%的测试样本的电源使用效率在测量值的0.01以内。在第二阶段,该代理模型作为物理一致的基线,量化了过剩冷却能量,揭示了大约85 MWh的年度低效率,集中在特定的月份、小时和运行状态。第三阶段评估了受保护栏约束的反事实调整,调整供应温度和子环路流量,表明通过小的、安全的设定点更改,同时尊重热限制和运行约束,可以恢复高达96%的已识别过剩。该框架产生了可解释的建议,支持反事实分析,例如低负载期间的流量减少和冷却回路之间的热负荷重新分配,并为量化减少辅助功率提供了一条实用途径。所开发的框架与模型预测控制兼容,并且可以扩展到具有不同配置和冷却要求的其他液体冷却数据中心。
🔬 方法详解
问题定义:论文旨在解决数据中心冷却系统能耗过高的问题。现有方法通常难以准确量化冷却系统的能源浪费,也缺乏有效的优化策略,导致能源效率低下。具体来说,论文关注的是如何通过调整冷却系统的运行参数,在满足热限制和运行约束的前提下,最大限度地降低辅助功率消耗。
核心思路:论文的核心思路是利用机器学习构建冷却系统的代理模型,该模型能够准确预测冷却系统的能耗,并在此基础上进行反事实分析,评估不同运行参数对能耗的影响。通过这种方式,可以识别出潜在的节能机会,并提出具体的优化建议。该方法强调物理信息的融入,确保模型的预测结果符合物理规律,从而提高模型的可靠性和可解释性。
技术框架:该框架包含三个主要阶段: 1. 代理模型训练:使用历史运行数据训练一个单调约束梯度提升模型,用于预测设施辅助功率。 2. 过剩能量量化:将代理模型作为基线,量化实际运行中的过剩冷却能量,识别低效率的运行状态。 3. 反事实优化:通过反事实分析,评估调整供应温度和子环路流量对能耗的影响,提出节能建议。
关键创新:该论文的关键创新在于将物理信息融入到机器学习模型中,构建了一个物理一致的代理模型。这种方法不仅提高了模型的预测精度,还增强了模型的可解释性,使得优化建议更易于理解和实施。此外,该框架还采用了反事实分析的方法,能够评估不同运行参数对能耗的影响,从而为冷却系统的优化提供了更全面的信息。
关键设计:在代理模型训练阶段,论文采用了单调约束梯度提升算法,确保模型的预测结果符合物理规律。例如,冷却剂流量增加通常会导致能耗增加,模型需要学习这种单调关系。在反事实优化阶段,论文考虑了热限制和运行约束,确保提出的优化建议是安全可行的。具体而言,论文通过设置保护栏约束,限制了运行参数的调整范围,避免出现过热等问题。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该框架能够准确预测数据中心的辅助功率,平均绝对误差为0.026 MW,电源使用效率预测精度达到98.7%。通过该框架,研究人员识别出约85 MWh的年度冷却能源浪费,并通过调整供应温度和子环路流量,成功恢复了高达96%的过剩能量。这些结果表明,该框架具有显著的节能潜力,能够为数据中心带来可观的经济效益。
🎯 应用场景
该研究成果可广泛应用于液体冷却数据中心,帮助优化冷却系统运行,降低能耗,提高能源效率。通过量化冷却能源浪费,并提供可行的优化建议,该框架有助于数据中心实现可持续发展,降低运营成本,并减少碳排放。此外,该方法还可扩展到其他类型的冷却系统和工业过程,具有广泛的应用前景。
📄 摘要(原文)
Effective data center cooling is crucial for reliable operation; however, cooling systems often exhibit inefficiencies that result in excessive energy consumption. This paper presents a three-stage, physics-guided machine learning framework for identifying and reducing cooling energy waste in high-performance computing facilities. Using one year of 10-minute resolution operational data from the Frontier exascale supercomputer, we first train a monotonicity-constrained gradient boosting surrogate that predicts facility accessory power from coolant flow rates, temperatures, and server power. The surrogate achieves a mean absolute error of 0.026 MW and predicts power usage effectiveness within 0.01 of measured values for 98.7% of test samples. In the second stage, the surrogate serves as a physics-consistent baseline to quantify excess cooling energy, revealing approximately 85 MWh of annual inefficiency concentrated in specific months, hours, and operating regimes. The third stage evaluates guardrail-constrained counterfactual adjustments to supply temperature and subloop flows, demonstrating that up to 96% of identified excess can be recovered through small, safe setpoint changes while respecting thermal limits and operational constraints. The framework yields interpretable recommendations, supports counterfactual analyses such as flow reduction during low-load periods and redistribution of thermal duty across cooling loops, and provides a practical pathway toward quantifiable reductions in accessory power. The developed framework is readily compatible with model predictive control and can be extended to other liquid-cooled data centers with different configurations and cooling requirements.