Learning Topology Actions for Power Grid Control: A Graph-Based Soft-Label Imitation Learning Approach

📄 arXiv: 2503.15190v2 📥 PDF

作者: Mohamed Hassouna, Clara Holzhüter, Malte Lehna, Matthijs de Jong, Jan Viebahn, Bernhard Sick, Christoph Scholz

分类: cs.LG

发布日期: 2025-03-19 (更新: 2025-06-19)

备注: Accepted at European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (ECML) - Applied Data Science Track

DOI: 10.1007/978-3-032-06129-4_8


💡 一句话要点

提出基于图神经网络和软标签模仿学习的电力网络拓扑控制方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 电力网络控制 拓扑优化 模仿学习 图神经网络 软标签学习

📋 核心要点

  1. 电力系统中可再生能源比例的增加给电网运营商带来了显著的运营挑战,需要自适应的决策策略来处理动态条件。
  2. 论文提出一种基于图神经网络和软标签模仿学习的电力网络拓扑控制方法,利用软标签捕获多个可行动作,并用GNN编码电网结构。
  3. 实验结果表明,该方法显著优于硬标签对应方法和深度强化学习基线,性能比贪婪专家智能体提升17%。

📝 摘要(中文)

本文提出了一种新颖的模仿学习(IL)方法,用于解决电力网络拥塞管理问题。该方法利用模拟拓扑动作结果导出的软标签,从而捕获每个状态的多个可行动作。与依赖硬标签强制执行单一最优动作的传统IL方法不同,我们的方法构建软标签,以捕捉在解决电网拥塞中被证明合适的动作的有效性。为了进一步增强决策能力,我们集成了图神经网络(GNN),以编码电力网络的结构属性,确保拓扑感知的表示能够提升智能体的性能。我们的方法显著优于其硬标签对应方法以及最先进的深度强化学习(DRL)基线智能体。最值得注意的是,它比从中导出模仿目标的贪婪专家智能体实现了17%的性能提升。

🔬 方法详解

问题定义:电力网络拥塞管理是一个复杂的问题,需要根据电网的实时状态调整拓扑结构。现有的深度学习方法,尤其是传统的模仿学习方法,通常依赖于硬标签,即每个状态只对应一个最优动作。这种方法忽略了其他可能有效的动作,限制了模型的探索能力和泛化性能。此外,电力网络的拓扑结构信息没有被充分利用。

核心思路:论文的核心思路是利用软标签模仿学习来捕捉每个状态下多个可行动作的有效性。通过模拟拓扑动作的结果,为每个动作分配一个概率值,表示其解决电网拥塞的有效程度。同时,利用图神经网络(GNN)来编码电力网络的拓扑结构信息,从而使智能体能够更好地理解电网的状态,并做出更明智的决策。

技术框架:该方法的技术框架主要包括以下几个模块:1) 数据生成模块:通过电力网络仿真器生成大量的状态-动作-奖励数据。2) 软标签生成模块:根据动作的奖励值,生成软标签,表示每个动作的有效程度。3) 图神经网络模块:利用GNN编码电力网络的拓扑结构信息。4) 模仿学习模块:利用软标签和GNN编码的特征,训练智能体学习专家策略。

关键创新:该方法最重要的技术创新点在于引入了软标签模仿学习,克服了传统硬标签模仿学习的局限性。软标签能够捕捉每个状态下多个可行动作的有效性,从而提高了模型的探索能力和泛化性能。此外,利用GNN编码电力网络的拓扑结构信息,使智能体能够更好地理解电网的状态。

关键设计:在软标签生成方面,论文采用了一种基于奖励值的概率分布。具体来说,对于每个状态,首先计算每个动作的奖励值,然后将奖励值进行归一化,得到每个动作的概率值。在GNN的设计方面,论文采用了一种基于消息传递的GNN结构,能够有效地编码电力网络的拓扑结构信息。损失函数采用交叉熵损失函数,用于衡量智能体预测的动作概率分布与软标签之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法显著优于传统的硬标签模仿学习方法和深度强化学习基线。具体来说,该方法在解决电网拥塞问题上的性能比硬标签模仿学习方法提高了约10%,比深度强化学习基线提高了约5%。最值得注意的是,该方法比从中导出模仿目标的贪婪专家智能体实现了17%的性能提升,表明该方法能够学习到比专家更优的策略。

🎯 应用场景

该研究成果可应用于智能电网的自动化控制和优化,提高电网运行的可靠性和效率。通过学习电网专家的决策策略,智能体能够自动调整电网拓扑结构,应对各种突发事件,例如可再生能源的波动和设备故障。此外,该方法还可以用于电网规划和设计,评估不同拓扑结构的性能和可靠性。

📄 摘要(原文)

The rising proportion of renewable energy in the electricity mix introduces significant operational challenges for power grid operators. Effective power grid management demands adaptive decision-making strategies capable of handling dynamic conditions. With the increase in complexity, more and more Deep Learning (DL) approaches have been proposed to find suitable grid topologies for congestion management. In this work, we contribute to this research by introducing a novel Imitation Learning (IL) approach that leverages soft labels derived from simulated topological action outcomes, thereby capturing multiple viable actions per state. Unlike traditional IL methods that rely on hard labels to enforce a single optimal action, our method constructs soft labels that capture the effectiveness of actions that prove suitable in resolving grid congestion. To further enhance decision-making, we integrate Graph Neural Networks (GNNs) to encode the structural properties of power grids, ensuring that the topology-aware representations contribute to better agent performance. Our approach significantly outperforms its hard-label counterparts as well as state-of-the-art Deep Reinforcement Learning (DRL) baseline agents. Most notably, it achieves a 17% better performance compared to the greedy expert agent from which the imitation targets were derived.