Deployment-Efficient Short-Term Load Forecasting in AI Data Centers via Sequence-to-Point Knowledge Distillation

📄 arXiv: 2605.00681v1 📥 PDF

作者: Lei Wang, Jiahao Chen, Fanping Sui, Ying Zhang, Di Shi

分类: eess.SY

发布日期: 2026-05-01

备注: 7 pages, 4 figures, 3 tables


💡 一句话要点

提出一种面向AI数据中心部署高效的序列到点知识蒸馏短期负载预测框架。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 短期负载预测 知识蒸馏 AI数据中心 序列到点 部署效率

📋 核心要点

  1. AI数据中心负载的突发性和非平稳性给实时运行效率、电源管理和电网-数据中心协调带来了挑战,需要准确的短期负载预测。
  2. 论文提出一种知识蒸馏框架,利用高容量教师模型学习负载轨迹,并将其知识迁移到轻量级学生模型,实现低延迟推理。
  3. 实验结果表明,该学生模型在MIT Supercloud数据集上优于现有深度学习基线,同时显著降低了模型大小和内存占用。

📝 摘要(中文)

针对AI数据中心突发且非平稳的电力需求预测问题,本文提出了一种部署高效的知识蒸馏框架用于短期负载预测。该框架首先训练一个高容量的序列教师模型,用于多步负载轨迹预测,并采用残差学习来提高在非平稳运行条件下的鲁棒性。然后,开发了一个轻量级的点式学生模型,使用紧凑的神经网络架构进行低延迟的滚动推理。为了将时间知识从教师传递给学生,引入了一种序列到点的蒸馏策略,通过对齐近期预测行为和时间池化表示。在MIT Supercloud数据集上的案例研究表明,所提出的学生模型在提高预测精度的同时,将参数内存和模型大小的部署占用空间减少了10倍以上。

🔬 方法详解

问题定义:AI数据中心电力负载具有突发性和非平稳性,准确预测其短期负载对于优化资源分配、提高能源效率至关重要。然而,高精度预测通常需要高容量模型,这导致部署成本高、推理延迟大,难以满足实时性要求。轻量级模型虽然易于部署,但难以捕捉负载的复杂时序动态。因此,如何在精度和部署效率之间取得平衡是本研究要解决的关键问题。

核心思路:论文的核心思路是利用知识蒸馏技术,将高容量教师模型学习到的复杂时序信息迁移到轻量级学生模型。教师模型负责学习精确的负载轨迹预测,学生模型则专注于低延迟的滚动推理。通过序列到点的蒸馏策略,学生模型不仅学习教师模型的预测结果,还学习其时间池化表示,从而更好地捕捉负载的时序动态。

技术框架:该框架包含两个主要阶段:教师模型训练和学生模型蒸馏。首先,训练一个高容量的序列教师模型,该模型接收历史负载数据作为输入,预测未来一段时间的负载轨迹。然后,利用训练好的教师模型指导学生模型的训练。学生模型是一个轻量级的点式模型,它接收当前时刻的输入,预测下一个时刻的负载。通过序列到点的蒸馏策略,学生模型学习模仿教师模型的预测行为和时间池化表示。

关键创新:该论文的关键创新在于序列到点的知识蒸馏策略。传统的知识蒸馏方法通常关注于对齐教师模型和学生模型的最终预测结果。而该论文提出的方法不仅对齐最终预测结果,还对齐教师模型的时间池化表示,从而使学生模型能够更好地捕捉负载的时序动态。此外,残差学习也被用于提高教师模型在非平稳运行条件下的鲁棒性。

关键设计:教师模型采用高容量的序列模型,例如LSTM或Transformer,用于多步负载轨迹预测。学生模型采用轻量级的神经网络架构,例如MLP或小型CNN,用于低延迟的滚动推理。序列到点的蒸馏策略通过最小化学生模型的预测结果与教师模型的预测结果之间的差异,以及学生模型的时间池化表示与教师模型的时间池化表示之间的差异来实现。损失函数通常包括预测损失和蒸馏损失两部分,其中预测损失衡量学生模型的预测精度,蒸馏损失衡量学生模型对教师模型知识的模仿程度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的学生模型在MIT Supercloud数据集上显著提高了短期负载预测的准确性,同时将模型大小和参数数量减少了10倍以上。与现有的深度学习基线方法相比,该方法在精度和部署效率之间取得了更好的平衡。

🎯 应用场景

该研究成果可应用于AI数据中心的智能电源管理、实时负载预测和资源优化。通过准确预测短期负载,数据中心可以动态调整资源分配,降低能源消耗,提高运行效率。此外,该方法还可以应用于电网-数据中心协调,实现更可靠的电力供应和需求响应。

📄 摘要(原文)

Accurately forecasting the bursty and non-stationary power demand of AI data centers has become increasingly important, as abrupt workload-driven variations at the GPU-node level can affect real-time operational efficiency, power management, and grid-data center coordination. However, high-capacity forecasting models are often difficult to deploy at scale because of their memory and latency requirements, while lightweight predictors may fail to capture short-horizon temporal dynamics. To address this accuracy-deployment tradeoff, this paper proposes a deployment-efficient knowledge distillation framework for short-term load forecasting in AI data centers. The proposed framework first trains a high-capacity sequence teacher model for multi-step load trajectory prediction, where residual learning is used to improve robustness under non-stationary operating conditions. A lightweight point-wise student model is then developed for low-latency rolling inference using a compact neural network architecture. To transfer temporal knowledge from the teacher to the student, a sequence-to-point distillation strategy is introduced by aligning near-term predictive behavior and temporally pooled representations. Case studies on the MIT Supercloud dataset demonstrate that the proposed student model improves forecasting accuracy over recent deep learning baselines while reducing the deployment footprint by over 10x in parameter memory and model size.