Game-Theoretic Resilience Framework for Cyber-Physical Microgrids using Multi-Agent Reinforcement Learning

📄 arXiv: 2509.08310v1 📥 PDF

作者: S Krishna Niketh, Sagar Babu Mitikiri, V Vignesh, Vedantham Lakshmi Srinivas, Mayukha Pal

分类: eess.SY, cs.AI, cs.GT

发布日期: 2025-09-10


💡 一句话要点

提出基于多智能体强化学习的博弈论韧性框架,增强赛博物理微电网的抗攻击能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 赛博物理系统 微电网 韧性 博弈论 多智能体强化学习

📋 核心要点

  1. 现代电力系统面临日益增长的网络攻击风险,需要更有效的韧性策略。
  2. 论文提出基于博弈论和多智能体强化学习的框架,评估和增强微电网的赛博物理韧性。
  3. 实验表明,自适应防御策略能显著提高微电网的韧性,优于静态方法。

📝 摘要(中文)

现代电力系统对赛博物理基础设施的日益依赖增加了遭受网络攻击的风险,因此需要强大且自适应的韧性策略。本文提出了一个数学上严谨的博弈论框架,通过结合定量韧性指标(负载服务率LSR、关键负载韧性CLR、拓扑生存能力得分TSS和分布式能源韧性得分DRS)来评估和增强微电网的韧性。这些指标通过层次分析法AHP整合到一个统一的收益矩阵中,以评估攻击防御交互。该框架被形式化为一个有限视界马尔可夫决策过程MDP,具有形式化的收敛保证和计算复杂度界限。开发了三个案例研究:1.通过纳什均衡分析的静态攻击,2.包含高影响力策略的严重攻击,3.使用Stackelberg博弈、后悔匹配、Softmax启发式和多智能体Q学习的自适应攻击。严格的理论分析提供了具有显式速率的收敛证明、PAC学习样本复杂度界限和计算复杂度分析。该框架在具有分布式能源和控制开关的增强型IEEE 33节点配电系统上进行了测试,证明了自适应和战略防御在提高赛博物理韧性方面的有效性,与静态方法相比,具有18.7%和2.1%的统计显著性改进。

🔬 方法详解

问题定义:现有方法在应对微电网面临的复杂网络攻击时,缺乏足够的自适应性和战略性。静态防御策略难以有效应对不断演变的攻击手段,而传统的集中式防御方法可能存在单点故障风险,并且难以扩展到大规模微电网系统。因此,需要一种能够动态调整防御策略,并充分考虑攻击者行为的韧性框架。

核心思路:论文的核心思路是将微电网的赛博物理韧性问题建模为一个博弈,其中防御者和攻击者分别采取不同的策略。通过多智能体强化学习,防御者可以学习到最优的防御策略,以最大化微电网的韧性指标。同时,博弈论框架能够考虑到攻击者的理性行为,从而设计出更具鲁棒性的防御策略。

技术框架:该框架主要包含以下几个模块:1. 韧性指标定义:定义了负载服务率(LSR)、关键负载韧性(CLR)、拓扑生存能力得分(TSS)和分布式能源韧性得分(DRS)等关键韧性指标。2. 博弈建模:将攻击和防御过程建模为一个有限视界马尔可夫决策过程(MDP)。3. 多智能体强化学习:使用多智能体Q学习算法训练防御智能体,使其能够学习到最优的防御策略。4. 案例研究:通过静态攻击、严重攻击和自适应攻击等案例研究,验证框架的有效性。

关键创新:该论文的关键创新在于将博弈论和多智能体强化学习相结合,提出了一种自适应的赛博物理微电网韧性框架。与传统的静态防御方法相比,该框架能够动态调整防御策略,并考虑到攻击者的行为,从而提高了微电网的韧性。此外,该框架还提供了形式化的收敛保证和计算复杂度界限。

关键设计:在多智能体Q学习中,每个智能体代表一个防御单元,例如控制开关或分布式能源。智能体的状态空间包括微电网的网络拓扑、负载需求和分布式能源的发电状态。动作空间包括控制开关的开关状态和分布式能源的发电功率。奖励函数基于定义的韧性指标,例如LSR、CLR、TSS和DRS。论文还使用了层次分析法(AHP)来整合不同的韧性指标,并将其纳入收益矩阵中。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于多智能体强化学习的自适应防御策略能够显著提高微电网的赛博物理韧性。在IEEE 33节点配电系统上的测试结果显示,与静态防御方法相比,自适应防御策略在负载服务率(LSR)和关键负载韧性(CLR)方面分别提高了18.7%和2.1%,具有统计显著性。

🎯 应用场景

该研究成果可应用于智能电网、微电网等电力系统的安全防护,提升电力基础设施应对网络攻击的韧性。通过部署该框架,电力运营商可以更好地评估和增强其系统的抗攻击能力,降低因网络攻击造成的经济损失和社会影响。此外,该框架还可以扩展到其他关键基础设施领域,例如交通运输、通信网络等。

📄 摘要(原文)

The increasing reliance on cyber physical infrastructure in modern power systems has amplified the risk of targeted cyber attacks, necessitating robust and adaptive resilience strategies. This paper presents a mathematically rigorous game theoretic framework to evaluate and enhance microgrid resilience using a combination of quantitative resilience metrics Load Served Ratio LSR, Critical Load Resilience CLR, Topological Survivability Score TSS, and DER Resilience Score DRS. These are integrated into a unified payoff matrix using the Analytic Hierarchy Process AHP to assess attack defense interactions. The framework is formalized as a finite horizon Markov Decision Process MDP with formal convergence guarantees and computational complexity bounds. Three case studies are developed 1. static attacks analyzed via Nash equilibrium, 2. severe attacks incorporating high impact strategies, and 3. adaptive attacks using Stackelberg games, regret matching, softmax heuristics, and Multi Agent Q Learning. Rigorous theoretical analysis provides convergence proofs with explicit rates , PAC learning sample complexity bounds, and computational complexity analysis. The framework is tested on an enhanced IEEE 33bus distribution system with DERs and control switches, demonstrating the effectiveness of adaptive and strategic defenses in improving cyber physical resilience with statistically significant improvements of 18.7% 2.1% over static approaches.