Hierarchical Reinforcement Learning with Runtime Safety Shielding for Power Grid Operation

📄 arXiv: 2604.14032v1 📥 PDF

作者: Gitesh Malik

分类: cs.AI, cs.LG

发布日期: 2026-04-15

备注: 10 pages, 2 figures


💡 一句话要点

提出运行时安全屏蔽的分层强化学习方法,用于电力系统运行控制。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 电力系统控制 安全约束 分层控制 运行时安全屏蔽 零样本泛化 Grid2Op

📋 核心要点

  1. 现有强化学习方法在电力系统控制中面临安全约束、扰动下的脆弱性和泛化能力差等问题。
  2. 提出一种分层控制框架,利用高层强化学习进行决策,并使用运行时安全屏蔽过滤不安全动作。
  3. 实验表明,该方法在压力测试和零样本泛化方面优于扁平强化学习和仅安全方法,提升了系统安全性。

📝 摘要(中文)

强化学习在电力系统运行任务(如拓扑控制和拥塞管理)中展现出潜力。然而,由于严格的安全要求、在罕见扰动下的脆弱性以及对未见过的电网拓扑的泛化能力差,其在实际电力系统中的部署仍然有限。在安全关键基础设施中,不能容忍灾难性故障,基于学习的控制器必须在严格的物理约束下运行。本文提出了一种用于电力系统运行的安全约束分层控制框架,该框架将长时域决策与实时可行性执行显式解耦。高层强化学习策略提出抽象的控制动作,而确定性的运行时安全屏蔽使用快速前向仿真来过滤不安全的动作。安全性被强制执行为运行时不变性,独立于策略质量或训练分布。该框架在Grid2Op基准测试套件上进行了评估,包括标称条件、强制线路跳闸压力测试以及在未经重新训练的情况下在ICAPS 2021大规模输电网上的零样本部署。结果表明,扁平强化学习策略在压力下是脆弱的,而仅安全方法过于保守。相比之下,所提出的分层和安全感知方法实现了更长的episode生存时间、更低的峰值线路负载以及对未见过的电网的鲁棒零样本泛化。这些结果表明,电力系统控制中的安全性和泛化最好通过架构设计来实现,而不是通过越来越复杂的奖励工程来实现,从而为实际能源系统提供了一种可部署的基于学习的控制器的实用途径。

🔬 方法详解

问题定义:电力系统运行控制面临严格的安全约束,传统的强化学习方法容易在罕见扰动下失效,且难以泛化到新的电网拓扑。现有方法要么过于保守,要么无法保证运行安全,限制了其在实际电力系统中的应用。

核心思路:将长时域决策与实时安全约束解耦。利用高层强化学习策略进行长期决策,并引入一个确定性的运行时安全屏蔽来过滤不安全的动作。这种分层结构允许强化学习专注于优化性能,而安全屏蔽则确保运行的安全性。

技术框架:该框架包含两个主要模块:高层强化学习策略和运行时安全屏蔽。高层策略负责生成抽象的控制动作,例如调整发电机出力或改变线路拓扑。运行时安全屏蔽使用快速前向仿真来评估这些动作的安全性,并阻止任何可能导致系统违反安全约束的动作。安全屏蔽独立于强化学习策略进行工作,确保即使在策略性能不佳的情况下,系统也能保持安全运行。

关键创新:核心创新在于将强化学习与运行时安全屏蔽相结合,形成一个分层控制框架。这种架构设计允许在不牺牲安全性的前提下,利用强化学习的强大决策能力。与传统的奖励工程方法不同,该方法通过架构设计来保证安全性,避免了复杂的奖励函数设计和调整。

关键设计:运行时安全屏蔽的关键在于快速前向仿真。该仿真需要足够快,以便在实时环境中进行评估。论文中可能采用了简化模型或近似算法来加速仿真过程。此外,安全约束的定义也至关重要,需要准确反映电力系统的物理限制和运行要求。具体的强化学习算法选择(例如,DQN、PPO等)和网络结构(例如,多层感知机、卷积神经网络等)可能根据具体应用场景进行调整。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,所提出的分层强化学习框架在Grid2Op基准测试中表现出色。在强制线路跳闸压力测试中,该方法比扁平强化学习策略具有更长的episode生存时间。在ICAPS 2021大规模输电网上的零样本部署中,该方法展现出强大的泛化能力,无需重新训练即可安全运行。此外,该方法还降低了峰值线路负载,提高了系统的运行效率。

🎯 应用场景

该研究成果可应用于电力系统的自动化运行和控制,例如拓扑控制、电压控制和拥塞管理。通过提高电力系统的安全性和鲁棒性,可以减少停电事故的发生,提高供电可靠性,并优化能源利用效率。该方法还可推广到其他安全关键基础设施的控制领域,如交通运输系统和工业自动化系统。

📄 摘要(原文)

Reinforcement learning has shown promise for automating power-grid operation tasks such as topology control and congestion management. However, its deployment in real-world power systems remains limited by strict safety requirements, brittleness under rare disturbances, and poor generalization to unseen grid topologies. In safety-critical infrastructure, catastrophic failures cannot be tolerated, and learning-based controllers must operate within hard physical constraints. This paper proposes a safety-constrained hierarchical control framework for power-grid operation that explicitly decouples long-horizon decision-making from real-time feasibility enforcement. A high-level reinforcement learning policy proposes abstract control actions, while a deterministic runtime safety shield filters unsafe actions using fast forward simulation. Safety is enforced as a runtime invariant, independent of policy quality or training distribution. The proposed framework is evaluated on the Grid2Op benchmark suite under nominal conditions, forced line-outage stress tests, and zero-shot deployment on the ICAPS 2021 large-scale transmission grid without retraining. Results show that flat reinforcement learning policies are brittle under stress, while safety-only methods are overly conservative. In contrast, the proposed hierarchical and safety-aware approach achieves longer episode survival, lower peak line loading, and robust zero-shot generalization to unseen grids. These results indicate that safety and generalization in power-grid control are best achieved through architectural design rather than increasingly complex reward engineering, providing a practical path toward deployable learning-based controllers for real-world energy systems.