Communication-aware Wide-Area Damping Control using Risk-Constrained Reinforcement Learning
作者: Kyung-bin Kwon, Lintao Ye, Vijay Gupta, Hao Zhu
分类: eess.SY, cs.LG
发布日期: 2025-09-28
备注: 12 pages, 14 figures, Accepted for publication in IEEE Transactions on Smart Grid, 2025
💡 一句话要点
提出基于风险约束强化学习的通信感知广域阻尼控制方法,提升电力系统稳定性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 广域阻尼控制 风险约束 强化学习 通信延迟 电力系统稳定性
📋 核心要点
- 传统广域阻尼控制依赖精确的延迟估计和补偿,难以应对链路故障等网络安全问题。
- 提出基于风险约束的强化学习框架,通过优化最坏情况性能来减轻通信延迟的影响。
- 实验表明,该方法在IEEE 68节点系统上优于传统延迟补偿方法,并验证了VSC的阻尼能力。
📝 摘要(中文)
本文提出了一种新的风险约束框架,用于解决广域阻尼控制(WADC)中非理想通信链路(特别是延迟)带来的问题。传统方法依赖于延迟估计和补偿,但对快速WADC的精度要求极高,且无法处理链路故障或网络扰动等问题。该框架针对通信延迟,同时适用于网络物理耦合下的通用不确定性。WADC模型包含同步发电机(SG)和电压源换流器(VSC),以增强阻尼能力。通过在经典线性二次调节器(LQR)的最优控制成本中引入均值-方差风险约束来减轻不确定性。开发了一种基于强化学习(RL)的算法,即具有最大预言机的随机梯度下降(SGDmax),以解决风险约束问题。证明了即使使用简单的零阶策略梯度(ZOPG),该算法也能以高概率收敛到平稳状态。在IEEE 68节点系统上的数值测试验证了SGDmax的收敛性和VSC的阻尼能力,并表明该方法在估计误差下优于传统的基于延迟补偿器的方法。该风险约束设计在改善大延迟下的性能的同时,也能有效减轻最坏情况下的振荡,使其同样适用于解决其他通信问题和网络扰动。
🔬 方法详解
问题定义:电力系统中的广域阻尼控制(WADC)受通信延迟影响严重,传统方法依赖于精确的延迟估计和补偿,但难以应对链路故障、网络攻击等不确定性因素,导致系统稳定性下降。现有方法对延迟估计精度要求高,且缺乏对其他网络安全问题的考虑。
核心思路:论文的核心思路是通过引入风险约束来减轻通信延迟带来的不确定性,而非精确估计和补偿延迟。通过优化最坏情况下的性能,提高系统的鲁棒性,使其能够容忍较大的通信延迟和其他网络扰动。这种方法不依赖于精确的延迟模型,更具通用性和适应性。
技术框架:整体框架包括:1) 建立包含同步发电机(SG)和电压源换流器(VSC)的WADC模型;2) 在线性二次调节器(LQR)的最优控制成本中引入均值-方差风险约束,以量化和控制不确定性带来的风险;3) 开发基于强化学习(RL)的SGDmax算法,求解风险约束优化问题;4) 通过数值实验验证算法的收敛性和有效性。
关键创新:关键创新在于将风险约束引入到WADC的设计中,并利用强化学习算法求解该问题。与传统方法相比,该方法不依赖于精确的延迟估计,而是通过优化最坏情况下的性能来提高系统的鲁棒性。此外,SGDmax算法的收敛性证明也保证了该方法的可行性。
关键设计:风险约束采用均值-方差形式,用于平衡控制性能和风险。SGDmax算法是一种基于零阶策略梯度的强化学习算法,用于求解风险约束优化问题。算法的关键在于利用最大预言机来估计策略梯度,并保证算法的收敛性。具体参数设置和损失函数的设计需要根据具体的电力系统模型进行调整。
🖼️ 关键图片
📊 实验亮点
在IEEE 68节点系统上的数值实验表明,所提出的SGDmax算法能够有效收敛,并利用VSC提高系统阻尼。与传统的基于延迟补偿器的方法相比,该方法在存在估计误差的情况下表现更优,能够有效减轻最坏情况下的振荡,验证了该方法在应对通信延迟和网络扰动方面的有效性。
🎯 应用场景
该研究成果可应用于提升电力系统的稳定性和鲁棒性,尤其是在存在通信延迟和网络安全威胁的情况下。通过优化广域阻尼控制策略,可以有效抑制电力系统中的振荡,提高供电可靠性,减少停电事故的发生。此外,该方法还可以推广到其他网络物理系统中,例如智能电网、交通控制系统等。
📄 摘要(原文)
Non-ideal communication links, especially delays, critically affect fast networked controls in power systems, such as the wide-area damping control (WADC). Traditionally, a delay estimation and compensation approach is adopted to address this cyber-physical coupling, but it demands very high accuracy for the fast WADC and cannot handle other cyber concerns like link failures or {cyber perturbations}. Hence, we propose a new risk-constrained framework that can target the communication delays, yet amenable to general uncertainty under the cyber-physical couplings. Our WADC model includes the synchronous generators (SGs), and also voltage source converters (VSCs) for additional damping capabilities. To mitigate uncertainty, a mean-variance risk constraint is introduced to the classical optimal control cost of the linear quadratic regulator (LQR). Unlike estimating delays, our approach can effectively mitigate large communication delays by improving the worst-case performance. A reinforcement learning (RL)-based algorithm, namely, stochastic gradient-descent with max-oracle (SGDmax), is developed to solve the risk-constrained problem. We further show its guaranteed convergence to stationarity at a high probability, even using the simple zero-order policy gradient (ZOPG). Numerical tests on the IEEE 68-bus system not only verify SGDmax's convergence and VSCs' damping capabilities, but also demonstrate that our approach outperforms conventional delay compensator-based methods under estimation error. While focusing on performance improvement under large delays, our proposed risk-constrained design can effectively mitigate the worst-case oscillations, making it equally effective for addressing other communication issues and cyber perturbations.