Centrally Coordinated Multi-Agent Reinforcement Learning for Power Grid Topology Control
作者: Barbera de Mol, Davide Barbieri, Jan Viebahn, Davide Grossi
分类: cs.MA, cs.AI, cs.LG
发布日期: 2025-02-12 (更新: 2025-05-14)
备注: Accepted version to The 16th ACM International Conference on Future and Sustainable Energy Systems. The final published version is available at 10.1145/3679240.3734602
💡 一句话要点
提出中心协调多智能体强化学习,用于解决电力网络拓扑控制难题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多智能体强化学习 电力网络拓扑控制 中心协调 动作空间分解 L2RPN 电网运行 智能电网
📋 核心要点
- 电力网络运行因可再生能源比例增加而日益复杂,传统优化器和学习控制器难以应对高维动作空间。
- 论文提出中心协调多智能体(CCMA)架构,将动作空间分解,由区域智能体提出动作,协调智能体选择最终动作。
- 实验结果表明,CCMA架构相比L2RPN基线方法,具有更高的样本效率和更优越的最终性能。
📝 摘要(中文)
随着可再生能源发电量的增加,电力网络运行变得日益复杂。近期举办的“电力网络学习运行”(L2RPN)竞赛鼓励使用人工智能体来辅助人工调度员运行电力网络。然而,动作空间的组合性质对传统优化器和学习控制器都提出了挑战。动作空间分解是将决策分解为更小的子任务,是解决维度灾难的一种方法。本研究提出了一种用于动作空间分解的中心协调多智能体(CCMA)架构。在这种方法中,区域智能体提出动作,然后由协调智能体选择最终动作。我们研究了CCMA架构的几种实现方式,并在不同的实验环境中与各种L2RPN基线方法进行了基准测试。CCMA架构表现出比基线方法更高的样本效率和更优越的最终性能。结果表明,CCMA方法在更高维度的L2RPN以及实际电力网络环境中具有很高的应用潜力。
🔬 方法详解
问题定义:电力网络拓扑控制面临高维动作空间的挑战,传统优化算法和单智能体强化学习方法难以有效探索和利用动作空间,导致控制性能不佳。现有方法难以在复杂电力网络中实现高效稳定的控制。
核心思路:将复杂的全局控制问题分解为多个局部控制子问题,每个子问题由一个区域智能体负责。引入中心协调器,负责整合各个区域智能体的建议,做出全局最优的决策。这种分解降低了每个智能体需要处理的动作空间维度,简化了学习过程。
技术框架:CCMA架构包含多个区域智能体和一个中心协调器。每个区域智能体观察其负责的局部电网状态,并提出一个候选动作。中心协调器接收所有区域智能体的候选动作,并根据全局电网状态选择一个最终的全局动作。全局动作被执行后,环境返回新的状态和奖励,用于更新所有智能体的策略。
关键创新:将中心协调机制引入多智能体强化学习,用于电力网络拓扑控制。通过中心协调器,可以有效地整合各个区域智能体的知识,避免局部最优解,实现全局最优控制。这种架构能够更好地处理高维动作空间,提高学习效率和控制性能。
关键设计:区域智能体和中心协调器可以使用不同的强化学习算法,例如DQN、PPO等。奖励函数的设计至关重要,需要综合考虑电网的稳定性、可靠性和经济性。论文中具体使用的网络结构和参数设置未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CCMA架构在L2RPN竞赛环境中表现出优于基线方法的性能。具体而言,CCMA架构在样本效率和最终性能方面均有显著提升,表明其在高维动作空间中具有更强的学习能力和控制能力。具体的性能提升幅度未知。
🎯 应用场景
该研究成果可应用于实际电力网络的自动化运行和控制,辅助调度员进行决策,提高电网的稳定性和可靠性,降低运行成本。此外,该方法还可以推广到其他具有复杂动作空间的多智能体控制问题,例如交通控制、机器人协作等。
📄 摘要(原文)
Power grid operation is becoming more complex due to the increase in generation of renewable energy. The recent series of Learning To Run a Power Network (L2RPN) competitions have encouraged the use of artificial agents to assist human dispatchers in operating power grids. However, the combinatorial nature of the action space poses a challenge to both conventional optimizers and learned controllers. Action space factorization, which breaks down decision-making into smaller sub-tasks, is one approach to tackle the curse of dimensionality. In this study, we propose a centrally coordinated multi-agent (CCMA) architecture for action space factorization. In this approach, regional agents propose actions and subsequently a coordinating agent selects the final action. We investigate several implementations of the CCMA architecture, and benchmark in different experimental settings against various L2RPN baseline approaches. The CCMA architecture exhibits higher sample efficiency and superior final performance than the baseline approaches. The results suggest high potential of the CCMA approach for further application in higher-dimensional L2RPN as well as real-world power grid settings.