Multi-Objective Reinforcement Learning for Power Grid Topology Control

📄 arXiv: 2502.00040v2 📥 PDF

作者: Thomas Lautenbacher, Ali Rajaei, Davide Barbieri, Jan Viebahn, Jochen L. Cremer

分类: cs.LG, cs.AI, eess.SY

发布日期: 2025-01-27 (更新: 2025-05-01)


💡 一句话要点

提出基于多目标强化学习的电网拓扑控制方法,优化线路负载和拓扑结构。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多目标强化学习 电网拓扑控制 电力系统 Pareto优化 深度学习

📋 核心要点

  1. 现有电网拓扑控制方法难以兼顾线路负载、拓扑结构和开关频率等多个冲突目标。
  2. 提出基于多目标强化学习(MORL)的电网拓扑控制方法,生成Pareto最优策略平衡多个目标。
  3. 实验表明,该方法在预防电网故障和降低训练成本方面优于单目标强化学习方法。

📝 摘要(中文)

随着各行业电气化程度的提高,输电网的拥塞问题日益严重。通过变电站重构进行拓扑控制可以缓解拥塞,但其潜力在实际运行中尚未得到充分利用。一个挑战是建立与运营商目标和约束相符的拓扑控制问题模型。为了应对这一挑战,本文研究了多目标强化学习(MORL)在电力系统拓扑控制中的应用,以整合多个相互冲突的目标。我们开发了一种使用深度乐观线性支持(DOL)和多目标近端策略优化(MOPPO)的MORL方法,生成一组Pareto最优策略,以平衡线路负载最小化、拓扑偏差和开关频率等目标。初步案例研究表明,与随机搜索基线相比,MORL方法可以为目标权衡提供有价值的见解,并改善Pareto前沿的逼近。与常见的单目标强化学习策略相比,生成的多目标强化学习策略在预防意外事故导致的电网故障方面成功率提高了30%,在训练预算减少的情况下有效性提高了20%。

🔬 方法详解

问题定义:论文旨在解决电力网络拓扑控制中,如何同时优化多个相互冲突的目标,如最小化线路负载、减少拓扑结构变化和降低开关频率的问题。现有方法通常只关注单一目标,或者难以在多个目标之间进行有效的权衡,导致次优的控制策略。此外,传统方法在应对突发事件和训练资源有限的情况下表现不佳。

核心思路:论文的核心思路是利用多目标强化学习(MORL)框架,将电网拓扑控制问题建模为一个多目标决策过程。通过学习一组Pareto最优策略,使得决策者可以根据实际需求在不同的目标之间进行权衡。MORL能够同时优化多个目标,并提供一组策略供选择,从而更好地适应不同的运行条件和目标优先级。

技术框架:该方法采用MORL框架,主要包括以下几个模块:1) 环境建模:建立电力网络的仿真环境,包括线路、变压器、发电机等组件,以及各种运行约束和故障模型。2) 状态表示:定义状态空间,包括线路负载、电压、拓扑结构等信息。3) 动作空间:定义动作空间,即变电站开关的操作。4) 奖励函数:设计多目标奖励函数,分别衡量线路负载、拓扑偏差和开关频率。5) 学习算法:采用深度乐观线性支持(DOL)和多目标近端策略优化(MOPPO)算法,学习Pareto最优策略。

关键创新:该方法的关键创新在于将MORL应用于电力系统拓扑控制,并结合DOL和MOPPO算法,有效地解决了多目标优化问题。与传统的单目标强化学习方法相比,该方法能够生成一组Pareto最优策略,为决策者提供更多的选择和灵活性。此外,DOL和MOPPO算法能够加速学习过程,并提高策略的鲁棒性。

关键设计:在奖励函数设计方面,论文采用了加权和的方式将多个目标组合成一个标量奖励。权重的选择需要根据实际需求进行调整,以反映不同目标的重要性。在网络结构方面,论文采用了深度神经网络来逼近策略函数和价值函数。网络的具体结构需要根据问题的复杂程度进行调整。此外,论文还采用了经验回放和目标网络等技术来提高学习的稳定性和效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,与随机搜索基线相比,MORL方法可以更好地逼近Pareto前沿,为目标权衡提供有价值的见解。与常见的单目标强化学习策略相比,生成的多目标强化学习策略在预防意外事故导致的电网故障方面成功率提高了30%,在训练预算减少的情况下有效性提高了20%。这些结果表明,MORL方法在电力系统拓扑控制中具有显著的优势。

🎯 应用场景

该研究成果可应用于智能电网的运行和控制,提高电网的稳定性和可靠性。通过优化电网拓扑结构,可以降低线路损耗,减少拥塞,提高电力系统的效率。此外,该方法还可以用于应对突发事件,如线路故障或负荷突增,提高电网的抗风险能力。未来,该方法有望推广到更大规模的电力系统,并与其他智能电网技术相结合,实现更加智能化和高效的电网运行。

📄 摘要(原文)

Transmission grid congestion increases as the electrification of various sectors requires transmitting more power. Topology control, through substation reconfiguration, can reduce congestion but its potential remains under-exploited in operations. A challenge is modeling the topology control problem to align well with the objectives and constraints of operators. Addressing this challenge, this paper investigates the application of multi-objective reinforcement learning (MORL) to integrate multiple conflicting objectives for power grid topology control. We develop a MORL approach using deep optimistic linear support (DOL) and multi-objective proximal policy optimization (MOPPO) to generate a set of Pareto-optimal policies that balance objectives such as minimizing line loading, topological deviation, and switching frequency. Initial case studies show that the MORL approach can provide valuable insights into objective trade-offs and improve Pareto front approximation compared to a random search baseline. The generated multi-objective RL policies are 30% more successful in preventing grid failure under contingencies and 20% more effective when training budget is reduced - compared to the common single objective RL policy.