Safety Constrained Multi-Agent Reinforcement Learning for Active Voltage Control
作者: Yang Qu, Jinming Ma, Feng Wu
分类: cs.LG
发布日期: 2024-05-14 (更新: 2024-09-03)
备注: Accepted by IJCAI2024
💡 一句话要点
提出安全约束多智能体强化学习算法,用于主动电压控制
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多智能体强化学习 主动电压控制 安全约束 原始-对偶优化 双重安全估计
📋 核心要点
- 现有MARL方法在主动电压控制中忽略了约束优化,无法保证电压安全约束。
- 提出一种安全约束MARL算法,通过双重安全估计更新策略和拉格朗日乘数。
- 在真实规模配电网络仿真中验证,结果表明该方法优于现有MARL方法。
📝 摘要(中文)
主动电压控制利用配电网络中分布式可控发电设备(如屋顶光伏)来缓解电力拥塞并提高电压质量。多智能体强化学习(MARL)已成为解决此问题的一种引人注目的方法,但现有MARL方法往往忽略了该问题的约束优化本质,无法保证安全约束。本文将主动电压控制问题形式化为约束马尔可夫博弈,并提出了一种安全约束MARL算法。我们将原始-对偶优化RL方法扩展到多智能体设置,并通过一种新颖的双重安全估计方法来增强它,以学习策略和更新拉格朗日乘数。此外,我们提出了不同的成本函数,并研究了它们对约束MARL方法行为的影响。我们在具有真实规模场景的配电网络仿真环境中评估了我们的方法。实验结果表明,与最先进的MARL方法相比,该方法是有效的。
🔬 方法详解
问题定义:论文旨在解决主动电压控制中的安全约束问题。现有MARL方法在解决该问题时,通常忽略了电压的安全约束,导致控制策略可能违反电压限制,从而影响电力系统的稳定运行。因此,如何在MARL框架下保证电压安全约束是本文要解决的核心问题。
核心思路:论文的核心思路是将主动电压控制问题建模为约束马尔可夫博弈,并采用原始-对偶优化方法来解决该问题。通过引入拉格朗日乘数来处理安全约束,并将策略学习和拉格朗日乘数更新结合起来,从而在优化控制策略的同时,保证电压安全约束得到满足。此外,论文还提出了双重安全估计方法,以更准确地估计安全约束的违反程度,从而更好地更新拉格朗日乘数。
技术框架:该方法的技术框架主要包括以下几个模块:1) 环境建模:将主动电压控制问题建模为约束马尔可夫博弈。2) 策略学习:使用强化学习算法(如Actor-Critic)学习控制策略。3) 拉格朗日乘数更新:使用原始-对偶优化方法更新拉格朗日乘数,以保证安全约束得到满足。4) 双重安全估计:使用双重安全估计方法更准确地估计安全约束的违反程度。整体流程是,智能体与环境交互,根据环境状态选择动作,并获得奖励和下一个状态。然后,智能体使用强化学习算法更新策略,并使用原始-对偶优化方法和双重安全估计方法更新拉格朗日乘数。
关键创新:论文的关键创新在于以下几个方面:1) 将原始-对偶优化RL方法扩展到多智能体设置。2) 提出了一种新颖的双重安全估计方法,以更准确地估计安全约束的违反程度。3) 研究了不同成本函数对约束MARL方法行为的影响。
关键设计:论文的关键设计包括:1) 成本函数的设计:论文提出了不同的成本函数,包括考虑电压偏差、功率损耗等因素的成本函数。2) 网络结构的设计:论文采用了Actor-Critic网络结构,其中Actor网络用于学习控制策略,Critic网络用于评估策略的价值。3) 参数设置:论文对强化学习算法中的学习率、折扣因子等参数进行了调整,以获得更好的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所提出的安全约束MARL算法在主动电压控制任务中优于现有的MARL方法。具体来说,该方法能够更有效地保证电压安全约束,降低电压越限的概率,并提高电网的运行效率。与基线方法相比,该方法在电压控制精度和稳定性方面均有显著提升,并且在真实规模的配电网络仿真环境中表现出良好的泛化能力。
🎯 应用场景
该研究成果可应用于智能电网中的主动电压控制,提高电网的稳定性和可靠性,降低功率损耗,并促进分布式可再生能源的接入。通过优化分布式电源的出力,可以有效缓解电压越限问题,提高电能质量,为用户提供更可靠的电力供应。该方法还可扩展到其他约束优化问题,如电力系统的经济调度、需求响应等。
📄 摘要(原文)
Active voltage control presents a promising avenue for relieving power congestion and enhancing voltage quality, taking advantage of the distributed controllable generators in the power network, such as roof-top photovoltaics. While Multi-Agent Reinforcement Learning (MARL) has emerged as a compelling approach to address this challenge, existing MARL approaches tend to overlook the constrained optimization nature of this problem, failing in guaranteeing safety constraints. In this paper, we formalize the active voltage control problem as a constrained Markov game and propose a safety-constrained MARL algorithm. We expand the primal-dual optimization RL method to multi-agent settings, and augment it with a novel approach of double safety estimation to learn the policy and to update the Lagrange-multiplier. In addition, we proposed different cost functions and investigated their influences on the behavior of our constrained MARL method. We evaluate our approach in the power distribution network simulation environment with real-world scale scenarios. Experimental results demonstrate the effectiveness of the proposed method compared with the state-of-the-art MARL methods. This paper is published at \url{https://www.ijcai.org/Proceedings/2024/}.