Real-Time Defense Against Coordinated Cyber-Physical Attacks: A Robust Constrained Reinforcement Learning Approach
作者: Saman Mazaheri Khamaneh, Tong Wu, Wei Sun, Cong Chen
分类: eess.SY, eess.SP
发布日期: 2025-09-13 (更新: 2025-09-16)
备注: This work has been submitted to the IEEE for possible publication
💡 一句话要点
提出一种鲁棒约束强化学习方法,用于实时防御电力系统中的协同网络物理攻击。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 鲁棒约束强化学习 网络物理攻击防御 电力系统安全 实时控制 AC-OPF
📋 核心要点
- 现有电力系统安全方法难以高效识别最坏攻击场景并快速响应,导致级联故障风险。
- 提出三层鲁棒约束强化学习框架,通过学习防御策略,实时缓解各种攻击场景。
- 实验表明,该方法能有效防御协同N-K攻击,并在极短时间内恢复系统约束。
📝 摘要(中文)
现代电力系统面临日益复杂的网络物理攻击,这些攻击超出了传统的N-1安全准则。现有安全范式的瓶颈在于:高效识别最坏情况和快速协调防御响应受到密集计算和时间延迟的限制,在此期间,级联故障可能会蔓延。本文提出了一种新颖的三层鲁棒约束强化学习(RCRL)框架,用于增强电力系统安全性。该框架通过AC-OPF公式生成多样化的系统状态,识别每个状态下的最坏情况N-K攻击场景,并训练策略来缓解所有运行条件下的这些场景,而无需预定义的攻击模式。该框架通过基于Beta混合投影的可行动作映射技术在训练期间解决约束满足问题,并在部署期间采用原始-对偶增广拉格朗日优化。一旦训练完成,RCRL策略就能学习如何实时控制观察到的网络物理攻击。在IEEE基准系统上的验证表明,该方法对导致全网大范围级联故障的协同N-K攻击有效。学习到的策略能够快速响应,在0.21毫秒的推理时间内将全系统约束恢复到正常水平,从而为关键基础设施保护建立了卓越的弹性。
🔬 方法详解
问题定义:电力系统面临日益复杂的协同网络物理攻击,传统的N-1安全准则已不足以应对。现有方法在识别最坏情况攻击场景和协调防御响应方面存在计算量大、响应时间长的问题,容易导致级联故障。
核心思路:利用鲁棒约束强化学习,学习在各种系统状态和攻击场景下的最优防御策略。通过离线训练,使智能体能够快速识别并响应实时攻击,从而提高电力系统的弹性。
技术框架:该框架包含三个层次:第一层使用AC-OPF生成多样化的系统状态;第二层针对每个状态识别最坏情况的N-K攻击场景;第三层训练强化学习策略,以缓解这些攻击场景。训练过程中,使用Beta-blending投影技术进行可行动作映射,确保满足约束条件;部署时,采用原始-对偶增广拉格朗日优化。
关键创新:该方法无需预定义攻击模式,能够适应各种未知的攻击场景。通过鲁棒优化,确保策略在最坏情况下也能有效防御。采用约束强化学习,保证防御动作的可行性。
关键设计:使用AC-OPF生成系统状态,模拟电力系统的运行情况。N-K攻击场景的识别通过优化算法实现,寻找对系统影响最大的攻击组合。强化学习智能体的奖励函数设计考虑了系统安全、经济性和约束满足等因素。Beta-blending投影技术用于将智能体的动作映射到可行域内。
🖼️ 关键图片
📊 实验亮点
在IEEE基准系统上的实验表明,该方法能够有效防御协同N-K攻击,即使在发生大范围级联故障的情况下,也能在0.21毫秒内将全系统约束恢复到正常水平。相比于传统方法,该方法具有更快的响应速度和更强的鲁棒性。
🎯 应用场景
该研究成果可应用于电力系统的实时安全防御,提高电网对网络物理攻击的抵抗能力。通过快速响应和缓解攻击,减少停电风险,保障电力供应的可靠性和稳定性。该方法还可扩展到其他关键基础设施的安全防护,如天然气管道、供水系统等。
📄 摘要(原文)
Modern power systems face increasing vulnerability to sophisticated cyber-physical attacks beyond traditional N-1 contingency frameworks. Existing security paradigms face a critical bottleneck: efficiently identifying worst-case scenarios and rapidly coordinating defensive responses are hindered by intensive computation and time delays, during which cascading failures can propagate. This paper presents a novel tri-level robust constrained reinforcement learning (RCRL) framework for robust power system security. The framework generates diverse system states through AC-OPF formulations, identifies worst-case N-K attack scenarios for each state, and trains policies to mitigate these scenarios across all operating conditions without requiring predefined attack patterns. The framework addresses constraint satisfaction through Beta-blending projection-based feasible action mapping techniques during training and primal-dual augmented Lagrangian optimization for deployment. Once trained, the RCRL policy learns how to control observed cyber-physical attacks in real time. Validation on IEEE benchmark systems demonstrates effectiveness against coordinated N-K attacks, causing widespread cascading failures throughout the network. The learned policy can successfully respond rapidly to recover system-wide constraints back to normal within 0.21 ms inference times, establishing superior resilience for critical infrastructure protection.