Probabilistic Reachability Analysis of Multi-scale Voltage Dynamics Using Reinforcement Learning

作者: Naoki Hashima, Hikaru Hoshino, Luis David Pabón Ospina, Eiko Furutani

分类: eess.SY

发布日期: 2026-02-14

💡 一句话要点

提出基于深度强化学习的多时间尺度电压动态概率可达性分析方法

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 电压稳定性 深度强化学习 概率可达性分析 多时间尺度动态 电力系统 风险评估

📋 核心要点

传统电压稳定性分析方法难以有效处理多时间尺度耦合动态和运行条件不确定性。
利用深度强化学习，将不同不稳定性机制建模为吸收状态，实现风险概率的统一学习。
在四母线系统上的实验表明，该方法能有效识别和量化导致电压崩溃的机制。

📝 摘要（中文）

现代电力系统中的电压稳定性涉及多个时间尺度上的耦合动态。传统方法基于时间尺度分离或静态稳定裕度，可能忽略由慢速和快速瞬态耦合引起的不稳定性。运行条件的不确定性进一步复杂化了稳定性评估，蒙特卡洛模拟的高计算成本限制了其在多时间尺度动态中的应用。本文提出了一种基于深度强化学习的框架，用于多时间尺度电压动态的概率可达性分析。通过将每种不稳定性机制定义为不同的吸收状态，并引入一种用于机制特定学习的多评论家架构，该方法能够在统一框架内一致地学习与多种不稳定性类型相关的风险概率。该方法在一个具有负载抽头变换器和过励磁限制器的四母线系统上进行了演示，证明了所提出的基于学习的可达性分析在识别和量化导致电压崩溃的机制方面的有效性。

🔬 方法详解

问题定义：电力系统电压稳定性分析面临多时间尺度动态耦合和运行条件不确定性的挑战。传统方法如时间尺度分离和静态稳定裕度难以捕捉由快慢瞬态相互作用引发的不稳定性。此外，蒙特卡洛模拟计算成本高昂，难以应用于复杂的多时间尺度系统，因此需要一种高效且能处理不确定性的电压稳定性分析方法。

核心思路：本文的核心思路是利用深度强化学习（DRL）来学习电力系统电压动态的概率可达性。具体来说，将每种电压不稳定性机制（如电压崩溃）建模为强化学习环境中的一个吸收状态。通过训练智能体，使其能够预测从当前状态出发，到达不同吸收状态的概率，从而实现对不同类型电压不稳定风险的量化。

技术框架：该方法包含以下主要模块：1) 电力系统动态模型：用于模拟电力系统的电压动态行为，作为强化学习环境。2) 强化学习智能体：负责与环境交互，学习最优策略。3) 多评论家架构：针对每种不稳定性机制训练一个独立的评论家，用于评估智能体的行为。4) 奖励函数设计：根据智能体的行为，给予相应的奖励或惩罚，引导智能体学习。整体流程是：智能体在电力系统环境中进行探索，根据环境反馈和评论家的评估更新策略，最终学习到能够准确预测不同类型电压不稳定风险的策略。

关键创新：该方法的关键创新在于：1) 将电压稳定性分析问题转化为强化学习中的概率可达性问题。2) 引入多评论家架构，针对每种不稳定性机制进行特定学习，提高了学习效率和准确性。3) 提出了一种统一的框架，能够同时处理多种类型的电压不稳定风险。与现有方法相比，该方法能够更好地处理多时间尺度动态耦合和运行条件不确定性，并提供更全面的风险评估。

关键设计：该方法的一些关键设计包括：1) 状态空间的设计：需要包含能够反映电力系统电压动态的关键变量，如母线电压、发电机功率等。2) 动作空间的设计：需要包含能够影响电力系统电压动态的控制变量，如发电机励磁、负载抽头位置等。3) 奖励函数的设计：需要根据智能体的行为，给予相应的奖励或惩罚，引导智能体学习。例如，当智能体导致系统进入电压崩溃状态时，给予负奖励；当智能体保持系统稳定运行时，给予正奖励。4) 网络结构的设计：可以使用深度神经网络作为智能体的策略网络和评论家网络，例如，可以使用多层感知机或循环神经网络。

🖼️ 关键图片

📊 实验亮点

在四母线系统上的实验结果表明，该方法能够有效地识别和量化导致电压崩溃的机制。通过与传统的蒙特卡洛模拟方法进行对比，该方法在计算效率和准确性方面均表现出优势。例如，该方法能够在较短的时间内准确预测不同类型电压不稳定风险的概率，为电力系统运行人员提供有价值的决策支持。

🎯 应用场景

该研究成果可应用于电力系统运行风险评估、在线安全监控和预防性控制。通过量化不同类型电压不稳定风险，运行人员可以更好地了解系统的薄弱环节，并采取相应的控制措施，提高电力系统的安全性和可靠性。此外，该方法还可以用于电力系统规划，评估不同规划方案的电压稳定性风险。

📄 摘要（原文）

Voltage stability in modern power systems involves coupled dynamics across multiple time scales. Conventional methods based on time-scale separation or static stability margins may overlook instabilities caused by the coupling of slow and fast transients. Uncertainty in operating conditions further complicates stability assessment, and high computational cost of Monte Carlo simulations limit its applicability to multi-scale dynamics. This paper presents a deep reinforcement learning-based framework for probabilistic reachability analysis of multi-scale voltage dynamics. By formulating each instability mechanism as a distinct absorbing state and introducing a multi-critic architecture for mechanism-specific learning, the proposed method enables consistent learning of risk probabilities associated with multiple instability types within a unified framework. The approach is demonstrated on a four-bus system with load tap changers and over-excitation limiters, illustrating effectiveness of the proposed learning-based reachability analysis in identifying and quantifying the mechanisms leading to voltage collapse.

Probabilistic Reachability Analysis of Multi-scale Voltage Dynamics Using Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理