A Scalable Network-Aware Multi-Agent Reinforcement Learning Framework for Decentralized Inverter-based Voltage Control
作者: Han Xu, Jialin Zheng, Guannan Qu
分类: math.OC, cs.LG, cs.MA, eess.SY
发布日期: 2023-12-07
💡 一句话要点
提出可扩展的网络感知多智能体强化学习框架,解决分布式逆变器电压分散控制问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多智能体强化学习 分散式控制 电压控制 分布式发电 网络感知 可扩展性 电力系统
📋 核心要点
- 传统电压控制方法难以应对分布式电源的波动和不确定性,多智能体强化学习面临大规模场景下的可扩展性挑战。
- 论文提出网络感知(SNA)框架,利用电网结构截断评论家Q函数的输入,降低通信成本,提升算法可扩展性。
- SNA框架在包含114个分布式电源的系统中验证,结果表明该方法能有效解决分散式电压控制问题。
📝 摘要(中文)
本文旨在解决由于分布式发电(DG)增加而导致的电网分散电压控制难题。传统的基于模型的电压控制方法难以应对DG的快速能量波动和不确定性。多智能体强化学习(MARL)虽然展现出分散式二级控制的潜力,但在处理大量DG时会出现可扩展性问题。该问题源于主流的集中训练分散执行(CTDE)框架,其中评论家(critic)需要全局观察和动作信息。为了克服这些挑战,我们提出了一种可扩展的网络感知(SNA)框架,该框架利用网络结构来截断评论家Q函数的输入,从而提高可扩展性并降低训练期间的通信成本。此外,SNA框架在理论上具有可证明的近似保证,并且可以与多种多智能体Actor-Critic算法无缝集成。所提出的SNA框架已在一个包含114个DG的系统中成功演示,为日益复杂的电网系统中分散式电压控制提供了一个有前景的解决方案。
🔬 方法详解
问题定义:论文旨在解决大规模分布式发电接入电网后,传统电压控制方法难以应对分布式电源的波动性和不确定性,以及多智能体强化学习方法在集中训练时面临的可扩展性问题。现有方法需要全局信息,导致通信开销大,训练效率低,难以应用于实际大规模电网。
核心思路:论文的核心思路是利用电网的网络结构信息,减少每个智能体(逆变器)需要观察的状态空间和动作空间。通过限制评论家Q函数的输入,使其只关注与自身相关的局部网络信息,从而降低计算复杂度和通信成本,提高算法的可扩展性。这种方法基于电网的物理特性,认为局部网络对电压的影响更大。
技术框架:整体框架采用集中训练分散执行(CTDE)模式。主要包含以下模块:1) 智能体(Actor):每个分布式电源对应一个智能体,负责根据局部观测选择动作(逆变器的控制参数)。2) 评论家(Critic):评估智能体行为的价值,但只使用截断后的局部网络信息。3) 网络感知模块:根据电网拓扑结构,确定每个智能体的局部邻域,用于截断评论家的输入。训练完成后,智能体独立执行控制策略。
关键创新:最重要的技术创新点在于提出了网络感知的Q函数近似方法。与传统的CTDE方法不同,该方法不是让评论家观察全局状态和动作,而是只观察与智能体相关的局部网络信息。这种方法显著降低了评论家的输入维度,从而提高了算法的可扩展性。此外,论文还提供了理论证明,保证了这种近似方法的性能。
关键设计:关键设计包括:1) 邻域选择策略:根据电网拓扑结构(例如,电气距离或导纳),选择每个智能体的局部邻域。2) Q函数结构:评论家的Q函数以局部邻域的状态和动作作为输入。3) 损失函数:采用标准的Actor-Critic损失函数,但评论家使用局部信息进行评估。4) Actor和Critic的网络结构:可以使用任何合适的神经网络结构,例如多层感知机或卷积神经网络。
📊 实验亮点
论文在包含114个分布式电源的系统中进行了实验验证,结果表明所提出的SNA框架能够有效地进行分散式电压控制,并且具有良好的可扩展性。与传统的集中式训练方法相比,SNA框架显著降低了训练时间和通信成本,同时保持了良好的控制性能。具体性能数据未知,但摘要强调了其在复杂电网系统中的应用潜力。
🎯 应用场景
该研究成果可应用于大规模分布式发电并网的电压控制,提高电网的稳定性和可靠性。通过分散式控制,可以减少对中央控制器的依赖,提高系统的鲁棒性。此外,该方法还可以推广到其他需要分散式控制的复杂系统,例如智能交通、机器人集群等。
📄 摘要(原文)
This paper addresses the challenges associated with decentralized voltage control in power grids due to an increase in distributed generations (DGs). Traditional model-based voltage control methods struggle with the rapid energy fluctuations and uncertainties of these DGs. While multi-agent reinforcement learning (MARL) has shown potential for decentralized secondary control, scalability issues arise when dealing with a large number of DGs. This problem lies in the dominant centralized training and decentralized execution (CTDE) framework, where the critics take global observations and actions. To overcome these challenges, we propose a scalable network-aware (SNA) framework that leverages network structure to truncate the input to the critic's Q-function, thereby improving scalability and reducing communication costs during training. Further, the SNA framework is theoretically grounded with provable approximation guarantee, and it can seamlessly integrate with multiple multi-agent actor-critic algorithms. The proposed SNA framework is successfully demonstrated in a system with 114 DGs, providing a promising solution for decentralized voltage control in increasingly complex power grid systems.