Imitation Learning for Intra-Day Power Grid Operation through Topology Actions
作者: Matthijs de Jong, Jan Viebahn, Yuliya Shapovalova
分类: cs.AI, cs.LG, eess.SY
发布日期: 2024-07-29 (更新: 2024-08-18)
备注: To be presented at the Machine Learning for Sustainable Power Systems 2024 workshop and to be published in the corresponding Springer Communications in Computer and Information Science proceedings
💡 一句话要点
基于拓扑动作,通过模仿学习提升电网日内运行性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 模仿学习 电力系统 拓扑控制 智能电网 人工智能体
📋 核心要点
- 可再生能源比例增加导致电网运行复杂性上升,现有方法难以兼顾性能与计算效率。
- 采用模仿学习,训练神经网络学习专家智能体的拓扑动作,以期获得高性能和低计算成本。
- 实验表明,纯模仿学习智能体性能接近专家,混合智能体在计算成本大幅降低的情况下达到专家水平。
📝 摘要(中文)
随着可再生能源发电量的增加,电网运行变得日益复杂。学习运行电力网络(L2RPN)竞赛鼓励使用人工智能体来辅助调度员运行电网。本文研究了模仿学习在基于拓扑动作的日前电网运行中的性能。特别地,我们考虑了两种基于规则的专家智能体:贪婪智能体和N-1智能体。后者由于考虑了N-1安全约束,计算成本更高,但运行性能更高。我们使用全连接神经网络(FCNN)在专家状态-动作对上进行训练,并通过两种方式评估其性能。首先,由于类别不平衡和类别重叠,尽管进行了广泛的超参数调整,分类精度仍然有限。其次,作为电力系统智能体,FCNN的性能仅比专家智能体略差。此外,混合智能体通过引入最少的额外仿真,能够以显著降低的计算成本匹配专家智能体的性能。因此,模仿学习在开发快速、高性能的电网智能体方面显示出潜力,这激励了未来L2RPN研究中对其进一步探索。
🔬 方法详解
问题定义:电力系统运行需要根据实时状态调整拓扑结构,以保证安全和效率。现有基于规则的专家系统,如N-1安全约束校验,计算复杂度高,难以满足快速响应的需求。因此,如何在保证性能的前提下,降低计算成本是关键问题。
核心思路:利用模仿学习,训练一个神经网络来学习专家智能体的决策模式。通过学习专家智能体的状态-动作对,神经网络可以快速预测在给定状态下应该采取的拓扑动作,从而避免耗时的仿真计算。
技术框架:整体框架包括离线训练和在线运行两个阶段。离线训练阶段,首先由专家智能体(贪婪智能体或N-1智能体)在历史数据上运行,生成状态-动作对。然后,使用这些数据训练一个全连接神经网络(FCNN)。在线运行阶段,FCNN接收当前电网状态作为输入,输出相应的拓扑动作。
关键创新:关键创新在于将模仿学习应用于电力系统拓扑控制,并探索了混合智能体的概念。混合智能体在FCNN的基础上,引入了少量的额外仿真计算,以进一步提高性能。这种混合方法能够在性能和计算成本之间取得更好的平衡。
关键设计:FCNN的网络结构未知,但使用了专家智能体生成的状态-动作对进行训练。损失函数可能是交叉熵损失,用于分类拓扑动作。超参数调整旨在优化分类精度,但由于类别不平衡和类别重叠,精度提升有限。混合智能体的具体实现方式未知,但推测是在FCNN输出的基础上,进行少量的仿真验证或修正。
🖼️ 关键图片
📊 实验亮点
实验结果表明,纯模仿学习的FCNN智能体性能略低于专家智能体,但计算速度更快。更重要的是,混合智能体通过引入少量额外仿真,能够以显著降低的计算成本达到专家智能体的性能水平。这表明模仿学习在电力系统控制领域具有很大的潜力。
🎯 应用场景
该研究成果可应用于智能电网的自动化运行和控制,辅助调度员进行快速决策,提高电网运行的效率和安全性。特别是在可再生能源高比例接入的情况下,能够更好地应对电网运行的复杂性和不确定性。未来可扩展到其他电力系统控制问题,如电压控制、频率控制等。
📄 摘要(原文)
Power grid operation is becoming increasingly complex due to the increase in generation of renewable energy. The recent series of Learning To Run a Power Network (L2RPN) competitions have encouraged the use of artificial agents to assist human dispatchers in operating power grids. In this paper we study the performance of imitation learning for day-ahead power grid operation through topology actions. In particular, we consider two rule-based expert agents: a greedy agent and a N-1 agent. While the latter is more computationally expensive since it takes N-1 safety considerations into account, it exhibits a much higher operational performance. We train a fully-connected neural network (FCNN) on expert state-action pairs and evaluate it in two ways. First, we find that classification accuracy is limited despite extensive hyperparameter tuning, due to class imbalance and class overlap. Second, as a power system agent, the FCNN performs only slightly worse than expert agents. Furthermore, hybrid agents, which incorporate minimal additional simulations, match expert agents' performance with significantly lower computational cost. Consequently, imitation learning shows promise for developing fast, high-performing power grid agents, motivating its further exploration in future L2RPN studies.