Input Convex Encoder-Only Transformer for Fast and Gradient-Stable MPC in Building Demand Response

📄 arXiv: 2603.22095v1 📥 PDF

作者: Kaipeng Xu, Zhuo Zhi, Keyue Jiang

分类: eess.SY

发布日期: 2026-03-23

备注: 15 pages, 11 figures


💡 一句话要点

提出输入凸编码器Transformer(IC-EoT),加速建筑需求响应中的梯度稳定MPC。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 模型预测控制 建筑需求响应 输入凸神经网络 Transformer 能源管理

📋 核心要点

  1. 传统神经网络MPC在建筑需求响应中面临非凸优化问题,导致求解缓慢和次优解。
  2. 论文提出输入凸编码器Transformer(IC-EoT),结合Transformer并行处理和输入凸性,保证求解效率。
  3. 实验表明,IC-EoT避免了梯度不稳定问题,并显著加速MPC求解,比IC-LSTM快2.7到8.3倍。

📝 摘要(中文)

基于学习的模型预测控制(MPC)已成为建筑需求响应的强大策略。然而,标准神经网络模型引起的非凸优化问题阻碍了其部署,导致求解时间过长和解的次优。虽然输入凸神经网络(ICNNs),如输入凸长短期记忆网络(IC-LSTMs)被开发来解决凸性问题,但它们的循环架构在高计算成本和梯度不稳定方面存在问题。本文提出了一种新颖的输入凸编码器Transformer(IC-EoT)架构,它将Transformer的并行处理能力与输入凸性的可处理性相结合。IC-EoT在一个高保真协同仿真框架中开发和评估,该框架使用Energym Python库与EnergyPlus建筑模拟器交互,并与循环凸对应模型(IC-LSTM)和标准非凸模型进行比较。结果表明,IC-EoT在结构上不受影响循环ICNN的梯度不稳定性的影响,同时保持了相当的预测精度。更重要的是,它大大减少了MPC求解时间;这种速度优势随着预测范围的增加而增长,在1到8小时的范围内,IC-EoT比IC-LSTM快2.7到8.3倍。这种计算效率的飞跃使IC-EoT成为一种鲁棒而实用的解决方案,能够在实际范围决策场景下实现有效的、实时的建筑能源管理MPC。

🔬 方法详解

问题定义:论文旨在解决基于学习的MPC在建筑需求响应应用中,由于传统神经网络的非凸性导致求解速度慢和梯度不稳定的问题。现有的ICNNs,如IC-LSTM,虽然保证了凸性,但其循环结构在高预测范围下计算成本高昂,且存在梯度消失或爆炸的风险。

核心思路:论文的核心思路是将Transformer的并行处理能力与输入凸神经网络的凸性保证相结合。通过使用Encoder-only的Transformer结构,可以并行处理输入序列,从而显著提高计算效率。同时,通过保证网络的输入凸性,可以确保MPC问题是凸的,从而可以快速找到全局最优解。

技术框架:IC-EoT模型主要包含以下几个部分:输入嵌入层、Transformer Encoder层和输出层。输入嵌入层将输入序列转换为高维向量表示。Transformer Encoder层由多个Encoder块组成,每个Encoder块包含自注意力机制和前馈神经网络。输出层将Transformer Encoder的输出映射到预测值。整个框架通过Energym Python库与EnergyPlus建筑模拟器进行交互,形成一个闭环控制系统。

关键创新:最重要的技术创新点在于将输入凸性约束引入到Transformer Encoder-only结构中。与传统的循环ICNNs相比,IC-EoT能够并行处理输入序列,从而显著提高计算效率,并避免了梯度消失或爆炸的问题。与非凸神经网络相比,IC-EoT保证了MPC问题的凸性,从而可以快速找到全局最优解。

关键设计:论文中使用了标准的Transformer Encoder结构,并对权重矩阵施加了凸性约束。具体来说,对于每一层的前馈神经网络,都保证其权重矩阵是正定的。损失函数采用了均方误差损失,并添加了正则化项来约束权重矩阵的凸性。此外,论文还对Transformer的超参数进行了优化,以获得最佳的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,IC-EoT在预测精度上与IC-LSTM相当,但在MPC求解速度上显著优于IC-LSTM。在1到8小时的预测范围内,IC-EoT比IC-LSTM快2.7到8.3倍。此外,IC-EoT在训练过程中表现出更好的梯度稳定性,避免了梯度消失或爆炸的问题。这些结果表明,IC-EoT是一种更有效、更鲁棒的建筑能源管理MPC解决方案。

🎯 应用场景

该研究成果可应用于智能建筑能源管理、智能家居、区域能源系统优化等领域。通过使用IC-EoT,可以实现对建筑能耗的实时优化控制,降低能源消耗,提高能源利用效率,并为电网提供灵活的需求响应能力。未来,该技术有望在更大规模的建筑群和更复杂的能源系统中得到应用。

📄 摘要(原文)

Learning-based Model Predictive Control (MPC) has emerged as a powerful strategy for building demand response. However, its practical deployment is often hindered by the non-convex optimization problems induced by standard neural network models. These problems lead to long solver times and suboptimal solutions, making real-time control over long horizons challenging. While Input Convex Neural Networks (ICNNs), such as Input-Convex Long Short-Term Memorys (IC-LSTMs), are developed to address the convexity issue, their recurrent architectures suffer from high computational cost and gradient instability as the prediction horizon increases. To overcome these limitations, this paper introduces the Input-Convex Encoder-only Transformer (IC-EoT), a novel architecture that synergizes the parallel processing capabilities of the Transformer with the guaranteed tractability of input convexity. The IC-EoT was developed and evaluated in a high-fidelity co-simulation framework using the Energym Python library to interface with the EnergyPlus building simulator, and compared against its recurrent convex counterpart (IC-LSTM) and standard non-convex models. The results demonstrate that the IC-EoT is structurally immune to the gradient instability that affects recurrent ICNNs while maintaining comparable predictive accuracy. More critically, it substantially reduces MPC solver times; this speed advantage grows with the prediction horizon, with the IC-EoT proving 2.7 to 8.3 times faster than the IC-LSTM across horizons spanning from one to eight hours. This leap in computational efficiency makes the IC-EoT a robust and practical solution, enabling effective, real-time MPC for building energy management under realistic horizon decision-making scenarios.