Demand response for residential building heating: Effective Monte Carlo Tree Search control based on physics-informed neural networks
作者: Fabio Pavirani, Gargya Gokhale, Bert Claessens, Chris Develder
分类: eess.SY, cs.AI
发布日期: 2023-12-06 (更新: 2024-05-21)
💡 一句话要点
提出基于物理信息神经网络的蒙特卡洛树搜索算法,用于住宅建筑供暖需求响应控制。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 需求响应 蒙特卡洛树搜索 物理信息神经网络 建筑能源控制 强化学习
📋 核心要点
- 现有强化学习方法在建筑能源控制中应用复杂,难以直接整合外部约束,影响控制效果。
- 提出基于物理信息神经网络(PiNN)的蒙特卡洛树搜索(MCTS)算法,利用PiNN进行系统状态预测,并结合AlphaZero的思想优化MCTS。
- 实验表明,相比黑盒神经网络,PiNN能降低预测误差32%,MCTS能降低能源成本4%,提高热舒适性7%。
📝 摘要(中文)
为了减少全球碳排放和限制气候变化,控制建筑物的能源消耗至关重要。本文重点研究使用需求响应(DR)算法来限制住宅建筑供暖系统的能源消耗,同时保证用户的热舒适性。强化学习(RL)方法已被证明在该领域非常有效。蒙特卡洛树搜索(MCTS)就是这样一种RL方法,它在棋类游戏中取得了令人瞩目的成功。MCTS的一个特殊优势是,其决策树结构自然地允许整合外部约束(例如,通过修剪违反约束的分支),而传统的RL解决方案需要更复杂的技术(例如,通过在成本/奖励函数中添加惩罚,或通过纠正违反约束行为的备用控制器)。本文的主要目的是研究MCTS在建筑控制中的应用,因为据我们所知,这在很大程度上仍未被探索。MCTS的一个特定属性是它需要一个模拟器组件,该组件可以根据采取的行动预测后续系统状态。一个直接的数据驱动解决方案是使用黑盒神经网络(NN)。我们将扩展一个物理信息神经网络(PiNN)模型来提供多时间步预测,并展示它在降低预测误差(-32% MAE)以及提高MCTS性能(-4% 能源成本,+7% 热舒适性)方面的优势,与黑盒NN相比。第二个贡献是将vanilla MCTS版本扩展为采用AlphaZero中应用的思想(即,使用学习到的先验和价值函数以及动作选择启发式)以获得更低的计算成本,同时保持控制性能。
🔬 方法详解
问题定义:论文旨在解决住宅建筑供暖系统的需求响应控制问题,即在满足用户热舒适性的前提下,降低能源消耗。现有方法,特别是传统的强化学习方法,在处理外部约束时较为复杂,通常需要通过惩罚函数或备用控制器来实现,这增加了算法设计的难度和计算成本。
核心思路:论文的核心思路是将蒙特卡洛树搜索(MCTS)应用于建筑控制领域,并利用物理信息神经网络(PiNN)作为MCTS的模拟器,预测系统状态。同时,借鉴AlphaZero的思想,使用学习到的先验和价值函数来指导MCTS的搜索过程,从而降低计算成本并提高控制性能。
技术框架:整体框架包括以下几个主要模块:1) 环境模型:使用PiNN对建筑物的热力学行为进行建模,预测未来状态。2) 蒙特卡洛树搜索(MCTS):利用PiNN模型进行模拟,构建决策树,选择最优的控制策略。3) 先验和价值函数:借鉴AlphaZero,训练神经网络学习先验策略和状态价值,用于指导MCTS的搜索过程。4) 需求响应控制器:根据MCTS的输出,控制供暖系统的运行。
关键创新:论文的关键创新在于:1) 将MCTS应用于建筑控制领域,并验证了其有效性。2) 使用物理信息神经网络(PiNN)作为MCTS的模拟器,提高了预测精度。3) 借鉴AlphaZero的思想,优化了MCTS的搜索过程,降低了计算成本。与现有方法相比,该方法能够更有效地整合外部约束,并提高控制性能。
关键设计:PiNN模型的设计结合了物理知识和神经网络,损失函数包括数据驱动的损失和物理驱动的损失。MCTS的搜索策略采用了UCT(Upper Confidence Bound applied to Trees)算法,并结合了学习到的先验策略和状态价值。AlphaZero的借鉴体现在使用神经网络学习先验策略和状态价值,并将其用于指导MCTS的搜索过程,从而减少了搜索空间。
📊 实验亮点
实验结果表明,与使用黑盒神经网络作为模拟器的MCTS相比,使用PiNN作为模拟器的MCTS能够显著降低预测误差(-32% MAE),并提高控制性能(-4% 能源成本,+7% 热舒适性)。此外,借鉴AlphaZero的思想优化后的MCTS,能够在保持控制性能的同时,显著降低计算成本。
🎯 应用场景
该研究成果可应用于智能建筑、智能家居等领域,通过优化供暖系统的控制策略,降低能源消耗,提高能源利用效率,并提升用户的舒适度。此外,该方法还可以推广到其他类型的建筑能源系统控制,例如空调、照明等,具有广泛的应用前景。
📄 摘要(原文)
To reduce global carbon emissions and limit climate change, controlling energy consumption in buildings is an important piece of the puzzle. Here, we specifically focus on using a demand response (DR) algorithm to limit the energy consumption of a residential building's heating system while respecting user's thermal comfort. In that domain, Reinforcement learning (RL) methods have been shown to be quite effective. One such RL method is Monte Carlo Tree Search (MCTS), which has achieved impressive success in playing board games (go, chess). A particular advantage of MCTS is that its decision tree structure naturally allows to integrate exogenous constraints (e.g., by trimming branches that violate them), while conventional RL solutions need more elaborate techniques (e.g., indirectly by adding penalties in the cost/reward function, or through a backup controller that corrects constraint-violating actions). The main aim of this paper is to study the adoption of MCTS for building control, since this (to the best of our knowledge) has remained largely unexplored. A specific property of MCTS is that it needs a simulator component that can predict subsequent system states, based on actions taken. A straightforward data-driven solution is to use black-box neural networks (NNs). We will however extend a Physics-informed Neural Network (PiNN) model to deliver multi-timestep predictions, and show the benefit it offers in terms of lower prediction errors ($-$32\% MAE) as well as better MCTS performance ($-$4\% energy cost, $+$7\% thermal comfort) compared to a black-box NN. A second contribution will be to extend a vanilla MCTS version to adopt the ideas applied in AlphaZero (i.e., using learned prior and value functions and an action selection heuristic) to obtain lower computational costs while maintaining control performance.