Self-Optimizing Control of Continuous Processes Based on Reinforcement Learning

📄 arXiv: 2606.04471v1 📥 PDF

作者: Ziqi Zhuo, Junghui Chen, Lei Xie, Hongye Su

分类: eess.SY

发布日期: 2026-06-03


💡 一句话要点

提出基于强化学习的自优化控制方法以解决工业连续过程中的动态性能问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自优化控制 强化学习 动态性能 工业过程 在线微调 非线性控制 经济指标

📋 核心要点

  1. 现有的自优化控制方法在面对高频干扰时,动态性能不足,难以满足工业应用需求。
  2. 本文提出了一种基于强化学习的自优化控制方法,通过嵌入控制变量结构和设计奖励函数来优化动态性能。
  3. 实验结果显示,该方法在连续搅拌反应器中表现出更好的动态响应,且输出平滑,减少了调优复杂性。

📝 摘要(中文)

本文针对工业连续过程中的自优化控制(SOC)问题,提出了一种基于强化学习(RL)的SOC方法,以提高在高频干扰下的动态性能。在该框架中,SOC控制变量结构嵌入到Actor网络中,并基于经济指标设计奖励函数。通过与环境的交互,RL代理优化控制变量,同时隐含考虑可实施性和稳态唯一性。进一步引入在线微调以缓解模型不匹配。实验在一个连续搅拌反应器上进行,结果表明RL方法在实时干扰下实现了更好的动态性能,生成平滑的控制变量输出,减少超参数调优复杂性,并通过在线调整增强适应性。总体而言,所提出的RL-based SOC方法为非线性过程控制提供了有效解决方案,并为未来涉及多干扰、多操作条件和无模型场景的研究提供了有前景的参考。

🔬 方法详解

问题定义:本文旨在解决工业连续过程中的自优化控制(SOC)问题,现有方法在高频干扰下的动态性能不足,难以实现有效控制。

核心思路:提出了一种基于强化学习的SOC方法,通过将控制变量结构嵌入Actor网络,并设计基于经济指标的奖励函数,优化控制变量的动态性能。

技术框架:整体架构包括RL代理与环境的交互,Actor网络用于控制变量的优化,奖励函数用于引导学习过程,在线微调模块用于解决模型不匹配问题。

关键创新:最重要的创新在于将控制变量结构与强化学习结合,允许RL代理在优化过程中隐含考虑可实施性和稳态唯一性,与传统方法相比,具有更高的灵活性和适应性。

关键设计:设计了基于经济指标的奖励函数,确保优化过程符合实际工业需求;采用在线微调机制,减少模型不匹配带来的影响,提升了系统的整体性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于强化学习的SOC方法在连续搅拌反应器中相比于传统的基于稳态数据的目标导向控制变量学习方法,动态性能显著提升,控制变量输出更加平滑,且超参数调优复杂性大幅降低,增强了系统的适应性。

🎯 应用场景

该研究的潜在应用领域包括化工、制药和食品加工等工业连续过程控制。通过提高动态性能和适应性,该方法能够有效应对复杂的操作条件和外部干扰,具有重要的实际价值和广泛的应用前景。

📄 摘要(原文)

This paper addresses the Self-Optimizing Control (SOC) problem in industrial continuous processes and proposes a Reinforcement-Learning (RL)-based SOC approach to improve dynamic performance under high-frequency disturbances. In the proposed framework, the SOC controlled variable structure is embedded in the Actor network, and reward functions are designed based on economic indicators. Through interaction with the environment, the RL agent optimizes controlled variables while implicitly considering implementability and steady-state uniqueness. Online fine-tuning is further introduced to alleviate model mismatch. Experiments on a continuous stirred-tank reactor with disturbances compare the proposed RL-based SOC method with the Objective-Guided Controlled Variable Learning Approach based on steady-state data. The results show that the RL method achieves improved dynamic performance under real-time disturbances, generates smooth controlled variable outputs without explicit regularization, reduces hyperparameter-tuning complexity, and enhances adaptability through online adjustment. Overall, the proposed RL-based SOC approach provides an effective solution for nonlinear process control and offers a promising reference for future studies involving multiple disturbances, multiple operating conditions, and model-free scenarios.