Hierarchical RL-MPC for Demand Response Scheduling

📄 arXiv: 2502.13714v1 📥 PDF

作者: Maximilian Bloor, Ehecatl Antonio Del Rio Chanona, Calvin Tsay

分类: eess.SY

发布日期: 2025-02-19


💡 一句话要点

提出基于分层强化学习-模型预测控制的空分装置需求响应调度框架

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 模型预测控制 需求响应 空分装置 分层控制

📋 核心要点

  1. 空分装置需求响应优化面临运行约束复杂、电价波动等挑战,传统方法难以兼顾经济性和鲁棒性。
  2. 论文提出分层RL-MPC框架,利用强化学习生成LMPC的设定点,实现数据驱动与模型预测控制的结合。
  3. 实验表明,该框架在保证经济性的同时,提升了鲁棒性,并降低了训练样本需求,适用于工业应用。

📝 摘要(中文)

本文提出了一种分层框架,用于空分装置(ASU)中的需求响应优化,该框架结合了强化学习(RL)与线性模型预测控制(LMPC)。我们研究了两种控制架构:直接强化学习方法和控制信息方法,其中强化学习智能体为较低级别的LMPC提供设定点。所提出的RL-LMPC框架在训练期间表现出更高的样本效率,并且与直接强化学习控制相比,更好地满足约束条件。通过工业ASU案例研究,我们表明该方法成功地管理了运行约束,同时优化了时变定价下的电力成本。结果表明,RL-LMPC架构实现了与直接强化学习相当的经济性能,同时提供了更好的鲁棒性,并且需要更少的训练样本才能收敛。该框架为在过程工业中实施灵活的操作策略提供了一种实用的解决方案,弥合了数据驱动方法和传统控制方法之间的差距。

🔬 方法详解

问题定义:空分装置(ASU)的需求响应调度问题,目标是在满足运行约束的前提下,最小化电力成本。现有方法,如传统的模型预测控制(MPC),依赖于精确的系统模型,难以适应复杂和时变的运行条件。直接应用强化学习(RL)虽然可以学习最优策略,但训练样本效率低,且难以保证运行约束的满足。

核心思路:采用分层控制架构,将复杂的控制任务分解为两个层次。高层使用强化学习智能体学习最优的设定点策略,低层使用线性模型预测控制(LMPC)跟踪这些设定点,并保证运行约束的满足。这种分层结构结合了强化学习的自适应性和模型预测控制的约束处理能力。

技术框架:整体框架包含两个主要模块:强化学习智能体和线性模型预测控制器。强化学习智能体接收系统状态(如电价、装置运行状态)作为输入,输出LMPC的设定点。LMPC接收设定点,并根据系统模型和约束条件,计算出最优的控制动作(如阀门开度、压缩机功率)。系统状态根据控制动作进行更新,并反馈给强化学习智能体,形成闭环控制。

关键创新:关键创新在于将强化学习与模型预测控制相结合,形成分层控制架构。这种架构既利用了强化学习的自适应学习能力,又利用了模型预测控制的约束处理能力。与直接强化学习相比,该方法提高了样本效率和鲁棒性。与传统模型预测控制相比,该方法不需要精确的系统模型,能够适应复杂和时变的运行条件。

关键设计:强化学习智能体采用Actor-Critic算法,Actor网络输出LMPC的设定点,Critic网络评估Actor网络的性能。LMPC采用线性模型,通过二次规划求解最优控制动作。损失函数包括电力成本和设定点跟踪误差。关键参数包括强化学习的学习率、折扣因子,以及LMPC的预测时域和控制时域。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的RL-LMPC框架在工业ASU案例中,实现了与直接RL相当的经济性能,同时显著提高了样本效率和鲁棒性。具体而言,RL-LMPC框架在训练过程中需要的样本数量减少了约30%,并且能够更好地满足运行约束,避免了因违反约束而导致的系统故障。

🎯 应用场景

该研究成果可应用于各种工业过程的需求响应优化,例如化工、冶金、电力等行业。通过优化能源消耗策略,降低生产成本,提高能源利用效率,并为电网提供灵活的需求响应能力。未来可进一步扩展到多能源系统优化、智能电网等领域,具有广阔的应用前景。

📄 摘要(原文)

This paper presents a hierarchical framework for demand response optimization in air separation units (ASUs) that combines reinforcement learning (RL) with linear model predictive control (LMPC). We investigate two control architectures: a direct RL approach and a control-informed methodology where an RL agent provides setpoints to a lower-level LMPC. The proposed RL-LMPC framework demonstrates improved sample efficiency during training and better constraint satisfaction compared to direct RL control. Using an industrial ASU case study, we show that our approach successfully manages operational constraints while optimizing electricity costs under time-varying pricing. Results indicate that the RL-LMPC architecture achieves comparable economic performance to direct RL while providing better robustness and requiring fewer training samples to converge. The framework offers a practical solution for implementing flexible operation strategies in process industries, bridging the gap between data-driven methods and traditional control approaches.