On-Policy Reinforcement-Learning Control for Optimal Energy Sharing and Temperature Regulation in District Heating Systems

📄 arXiv: 2509.16083v2 📥 PDF

作者: Xinyi Yi, Ioannis Lestas

分类: eess.SY

发布日期: 2025-09-19 (更新: 2025-09-22)

备注: To appear at CDC 2025


💡 一句话要点

提出一种基于On-Policy强化学习的区域供热系统能量共享与温度调节方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 区域供热系统 能量共享 温度调节 On-Policy学习 最优控制 数据驱动 LQR控制

📋 核心要点

  1. 区域供热系统面临需求和参数未知情况下的温度精确控制和能量高效分配难题。
  2. 论文提出基于On-Policy强化学习的控制方案,通过数据驱动更新实现最优能量共享和温度调节。
  3. 仿真结果表明,该方案能收敛到最优平衡点,并保证良好的瞬态性能,验证了其有效性。

📝 摘要(中文)

本文研究了需求和系统参数未知的区域供热系统(DHSs)中的温度调节和最优能量共享问题。我们提出了一种温度调节方案,该方案采用数据驱动的On-Policy更新来实现这些目标。特别地,我们证明了所提出的控制方案收敛到系统的最优平衡点,同时也保证收敛到最优LQR控制策略,从而提供良好的瞬态性能。通过大量的仿真实验验证了该方法的有效性。

🔬 方法详解

问题定义:论文旨在解决区域供热系统中,在需求和系统参数未知的情况下,如何实现温度的精确调节和能量的最优共享问题。现有方法可能难以适应动态变化的环境,无法保证系统运行在最优状态。

核心思路:论文的核心思路是利用On-Policy强化学习,通过与环境的交互学习最优控制策略。这种方法能够根据实际运行数据进行策略更新,从而适应未知和变化的系统参数,实现温度调节和能量共享的最优控制。

技术框架:该方案主要包含以下几个模块:1) 区域供热系统建模,描述系统状态和动态特性;2) On-Policy强化学习算法,用于学习控制策略;3) 奖励函数设计,用于引导策略学习,实现温度调节和能量共享的目标;4) 控制器实现,将学习到的策略应用于实际系统。

关键创新:该方法的主要创新在于将On-Policy强化学习应用于区域供热系统的控制,能够在需求和参数未知的情况下,自适应地学习最优控制策略。与传统的基于模型的方法相比,该方法不需要精确的系统模型,具有更强的鲁棒性和适应性。

关键设计:奖励函数的设计至关重要,需要综合考虑温度调节的精度、能量共享的效率以及系统的稳定性。具体的参数设置和网络结构(如果使用神经网络)需要根据实际系统的特性进行调整。论文中保证了算法收敛到最优LQR控制策略,这对于保证系统的稳定性和瞬态性能至关重要。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过大量的仿真实验验证了所提出方法的有效性。实验结果表明,该方法能够使系统收敛到最优平衡点,并保证良好的瞬态性能。与传统的控制方法相比,该方法在温度调节精度和能量共享效率方面均有显著提升,具体提升幅度未知。

🎯 应用场景

该研究成果可应用于各种规模的区域供热系统,尤其适用于需求波动大、系统参数不确定的场景。通过优化能量共享和温度调节,可以降低能源消耗、减少碳排放,提高供热系统的效率和可靠性,具有重要的经济和社会价值。未来可扩展到智能楼宇、微电网等能源管理系统。

📄 摘要(原文)

We address the problem of temperature regulation and optimal energy sharing in district heating systems (DHSs) where the demand and system parameters are unknown. We propose a temperature regulation scheme that employs data-driven on-policy updates that achieve these objectives. In particular, we show that the proposed control scheme converges to an optimal equilibrium point of the system, while also having guaranteed convergence to an optimal LQR control policy, thus providing good transient performance. The efficiency of our approach is also demonstrated through extensive simulations.