Robust Deep Reinforcement Learning for Inverter-based Volt-Var Control in Partially Observable Distribution Networks

📄 arXiv: 2408.06776v1 📥 PDF

作者: Qiong Liu, Ye Guo, Tong Xu

分类: eess.SY, cs.AI

发布日期: 2024-08-13


💡 一句话要点

提出一种鲁棒深度强化学习方法,用于配电网中基于逆变器的伏-瓦控制,解决部分可观测问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 伏-瓦控制 配电网 部分可观测性 鲁棒控制

📋 核心要点

  1. 主动配电网中测量部署有限,导致状态部分可观测和奖励未知,这是基于DRL的伏-瓦控制方法面临的主要挑战。
  2. 论文提出一种鲁棒的DRL方法,利用保守评论家和替代奖励,在部分可观测状态下训练鲁棒策略,并从有限测量中计算奖励。
  3. 实验结果表明,即使在极少的测量数据下(如仅根节点有功功率和少于10%的电压可测),该方法也能有效优化配电网的电压和功率损耗。

📝 摘要(中文)

本文研究了基于逆变器的伏-瓦控制。基于深度强化学习(DRL)方法的一个关键问题是主动配电网中有限的测量部署,这导致了部分可观测状态和未知奖励的问题。为了解决这些问题,本文提出了一种鲁棒的DRL方法,该方法具有保守的评论家和一个替代奖励。保守的评论家利用分位数回归技术,基于部分可观测状态估计保守的状态-动作价值函数,这有助于训练鲁棒的策略;功率损耗和电压违规的替代奖励被设计为可以从有限的测量中计算出来。所提出的方法优化了整个网络的功率损耗和具有可测量电压的总线的电压曲线,同时间接改善了其他总线的电压曲线。大量的仿真验证了该鲁棒DRL方法在不同有限测量条件下的有效性,即使只有根总线的有功功率注入和小于10%的总线电压是可测量的。

🔬 方法详解

问题定义:论文旨在解决主动配电网中由于测量部署有限导致的状态部分可观测和奖励未知问题,这使得传统的基于DRL的伏-瓦控制方法难以有效实施。现有方法依赖于完整的状态信息和精确的奖励函数,但在实际应用中,这些条件往往无法满足,导致控制性能下降甚至失效。

核心思路:论文的核心思路是设计一种鲁棒的DRL算法,使其能够在部分可观测状态下学习到有效的控制策略,并利用可获得的有限测量数据来构建替代奖励函数。通过保守的价值函数估计和替代奖励的设计,算法能够间接优化整个网络的性能,即使在信息不完整的情况下也能保持良好的控制效果。

技术框架:该方法包含以下主要模块:1) 状态观测模块,从有限的测量数据中提取部分可观测状态;2) 保守评论家模块,利用分位数回归技术估计保守的状态-动作价值函数,降低价值估计的方差,提高策略的鲁棒性;3) 策略网络模块,根据状态输出控制动作;4) 替代奖励模块,基于有限的测量数据计算功率损耗和电压违规的替代奖励,用于指导策略学习。整体流程是:智能体根据当前状态选择动作,环境返回部分可观测状态和替代奖励,智能体利用这些信息更新策略和价值函数。

关键创新:该方法最重要的技术创新点在于保守评论家的设计和替代奖励的构建。保守评论家通过分位数回归降低了价值估计的方差,提高了策略的鲁棒性,使其能够适应部分可观测状态带来的不确定性。替代奖励利用有限的测量数据,间接反映了整个网络的性能,避免了对完整状态信息的依赖。

关键设计:保守评论家采用分位数回归损失函数,通过最小化预测值与真实值之间的分位数误差来估计价值函数。替代奖励函数由两部分组成:一部分是基于可测量总线的电压偏差惩罚,另一部分是基于根节点有功功率注入的功率损耗估计。网络结构采用Actor-Critic框架,Actor网络输出控制动作,Critic网络评估状态-动作价值。具体的参数设置(如学习率、折扣因子、分位数等)需要根据具体的配电网拓扑和运行条件进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使在只有根节点有功功率注入和少于10%的总线电压可测的情况下,该鲁棒DRL方法也能有效地优化配电网的电压曲线和功率损耗。与传统的DRL方法相比,该方法在部分可观测状态下具有更好的鲁棒性和控制性能,能够显著降低电压违规的概率和功率损耗。

🎯 应用场景

该研究成果可应用于智能配电网的电压控制和优化,特别是在测量设备部署有限的场景下。通过部署该方法,可以提高配电网的电压稳定性和供电质量,降低功率损耗,并为分布式能源的接入提供更强的适应性。该方法还可扩展到其他电力系统控制问题,如频率控制、潮流优化等。

📄 摘要(原文)

Inverter-based volt-var control is studied in this paper. One key issue in DRL-based approaches is the limited measurement deployment in active distribution networks, which leads to problems of a partially observable state and unknown reward. To address those problems, this paper proposes a robust DRL approach with a conservative critic and a surrogate reward. The conservative critic utilizes the quantile regression technology to estimate conservative state-action value function based on the partially observable state, which helps to train a robust policy; the surrogate rewards of power loss and voltage violation are designed that can be calculated from the limited measurements. The proposed approach optimizes the power loss of the whole network and the voltage profile of buses with measurable voltages while indirectly improving the voltage profile of other buses. Extensive simulations verify the effectiveness of the robust DRL approach in different limited measurement conditions, even when only the active power injection of the root bus and less than 10% of bus voltages are measurable.