Safe Deep Reinforcement Learning for Building Heating Control and Demand-side Flexibility

📄 arXiv: 2604.16033v1 📥 PDF

作者: Colin Jüni, Mina Montazeri, Yi Guo, Federica Bellizio, Giovanni Sansavini, Philipp Heer

分类: eess.SY, cs.AI

发布日期: 2026-04-17


💡 一句话要点

提出基于安全深度强化学习的建筑供暖控制与需求侧响应框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 安全强化学习 建筑供暖控制 需求侧响应 能源效率

📋 核心要点

  1. 建筑能耗占全球能源消耗的40%,提高供暖、通风和空调系统的需求侧响应能力对电网稳定至关重要。
  2. 论文提出一种基于深度强化学习的建筑供暖控制框架,核心是DDPG算法,目标是优化供暖策略,兼顾舒适度、成本和灵活性。
  3. 引入实时自适应安全滤波器,确保系统在需求侧响应期间满足约束条件,实验表明能显著降低能耗和成本。

📝 摘要(中文)

本文提出了一种基于安全深度强化学习的控制框架,用于优化建筑空间供暖,同时实现为电力系统运营商提供需求侧灵活性。该框架使用深度确定性策略梯度(DDPG)算法作为核心深度强化学习方法,使控制器能够通过与建筑热模型的交互来学习最佳供暖策略,同时保持居住者舒适度,最小化能源成本并提供灵活性。为了解决强化学习的安全问题,特别是关于满足灵活性请求的问题,我们提出了一个实时自适应安全滤波器,以确保系统在需求侧灵活性提供期间在预定义的约束范围内运行。所提出的实时自适应安全滤波器保证完全符合系统运营商的灵活性请求,并提高能源和成本效率——与基于规则的控制器相比,可节省高达 50% 的成本——同时在能源和成本指标方面优于独立的基于深度强化学习的控制器,仅舒适温度违规略有增加。

🔬 方法详解

问题定义:现有建筑供暖控制方法难以兼顾能源效率、用户舒适度和电网需求侧响应。传统的基于规则的控制器效率较低,而直接应用深度强化学习可能导致不满足安全约束,例如无法响应电网的灵活性请求或超出用户舒适度范围。因此,需要一种既能优化供暖策略,又能保证安全性和可靠性的控制方法。

核心思路:论文的核心思路是将深度强化学习与安全滤波器相结合。深度强化学习负责学习最优的供暖策略,以最小化能源成本并提供灵活性。安全滤波器则负责实时监控系统的状态,并在必要时介入,以确保系统始终在安全约束范围内运行。这种方法结合了深度强化学习的优化能力和安全滤波器的安全性保证。

技术框架:整体框架包含三个主要模块:1) 建筑热模型:用于模拟建筑物的热力学行为,为强化学习提供环境。2) 基于DDPG的深度强化学习控制器:根据当前状态(如室内温度、室外温度、电价等)选择供暖策略。3) 实时自适应安全滤波器:监控系统的状态,并在预测到违反约束时,修改控制器的输出,以确保系统安全运行。控制器和安全滤波器协同工作,共同实现供暖控制目标。

关键创新:关键创新在于实时自适应安全滤波器的设计。该滤波器能够根据当前系统的状态和电网的灵活性请求,动态调整安全约束,从而在保证安全性的前提下,尽可能地利用深度强化学习的优化能力。传统的安全滤波器通常采用固定的安全约束,无法适应动态变化的环境。

关键设计:DDPG算法使用Actor-Critic结构,Actor网络输出连续的控制动作(如供暖功率),Critic网络评估Actor网络输出的动作的价值。安全滤波器通过线性规划方法,在满足安全约束的条件下,找到与控制器输出动作最接近的安全动作。损失函数包括能源成本、舒适度惩罚和灵活性奖励。网络结构和参数设置根据具体建筑热模型和电网需求进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的安全深度强化学习控制框架与基于规则的控制器相比,可节省高达50%的能源成本。与独立的深度强化学习控制器相比,在能源和成本指标方面表现更优,仅舒适温度违规略有增加。实时自适应安全滤波器能够保证完全符合系统运营商的灵活性请求。

🎯 应用场景

该研究成果可应用于智能建筑、智慧城市等领域,通过优化建筑供暖控制,降低能源消耗,提高能源利用效率,并为电网提供需求侧响应能力,增强电网的稳定性和可靠性。未来可扩展到其他建筑能源系统,如制冷、通风等,实现更全面的建筑能源管理。

📄 摘要(原文)

Buildings account for approximately 40% of global energy consumption, and with the growing share of intermittent renewable energy sources, enabling demand-side flexibility, particularly in heating, ventilation and air conditioning systems, is essential for grid stability and energy efficiency. This paper presents a safe deep reinforcement learning-based control framework to optimize building space heating while enabling demand-side flexibility provision for power system operators. A deep deterministic policy gradient algorithm is used as the core deep reinforcement learning method, enabling the controller to learn an optimal heating strategy through interaction with the building thermal model while maintaining occupant comfort, minimizing energy cost, and providing flexibility. To address safety concerns with reinforcement learning, particularly regarding compliance with flexibility requests, we propose a real-time adaptive safety-filter to ensure that the system operates within predefined constraints during demand-side flexibility provision. The proposed real-time adaptive safety filter guarantees full compliance with flexibility requests from system operators and improves energy and cost efficiency -- achieving up to 50% savings compared to a rule-based controller -- while outperforming a standalone deep reinforcement learning-based controller in energy and cost metrics, with only a slight increase in comfort temperature violations.