End-to-End Reinforcement Learning of Curative Curtailment with Partial Measurement Availability

作者: Hinrikus Wolf, Luis Böttcher, Sarra Bouchkati, Philipp Lutat, Jens Breitung, Bastian Jung, Tina Möllemann, Viktor Todosijević, Jan Schiefelbein-Lach, Oliver Pohl, Andreas Ulbig, Martin Grohe

分类: cs.LG, cs.AI, eess.SY

发布日期: 2024-05-06 (更新: 2024-06-10)

💡 一句话要点

提出基于深度强化学习的配电网有功无功协调控制方法，解决部分可观测性下的电压越限问题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 配电网控制 有功无功协调 电压越限 拥塞管理

📋 核心要点

配电网中光伏、电动汽车等渗透率提高，导致潮流变化和拥塞风险，现有方法难以在计算成本和可扩展性上满足需求。
提出一种基于深度强化学习的端到端方法，直接学习有功功率调整和无功功率设置策略，以缓解配电网拥塞。
在实际低压电网的实验表明，该方法在仅部分节点可观测的情况下，能有效解决电压越限和设备过载问题。

📝 摘要（中文）

本文提出了一种新颖的端到端方法，利用深度强化学习解决配电网中的拥塞问题。该架构学习如何调整有功功率和设置合适的无功功率，以确定无拥塞且可行的电网状态。现有的最优潮流（OPF）等方法计算成本高昂，并且需要电网中每个节点的详细测量数据。相比之下，本文提出的方法能够在稀疏信息下做出决策，仅需观测电网中的部分节点。由于配电网通常尚未完全数字化和可观测，因此该方法可用于大多数低压电网的决策。在实际低压电网上，该方法解决了100%的电压越限问题和98.8%的设备过载问题。结果表明，该方法可以在实际电网上做出决策，保证足够的质量以实现无拥塞的电网运行。

🔬 方法详解

问题定义：论文旨在解决配电网中由于新能源接入等因素引起的电压越限和设备过载问题。传统的最优潮流（OPF）方法虽然能够解决这些问题，但计算复杂度高，难以扩展到大规模配电网，并且需要精确的电网模型和全面的测量数据，这在实际应用中往往难以满足。因此，如何在计算资源有限且信息不完备的情况下，实现配电网的可靠运行是本论文要解决的核心问题。

核心思路：论文的核心思路是利用深度强化学习（DRL）直接学习配电网的控制策略。通过将配电网的运行状态作为DRL智能体的输入，将有功功率调整和无功功率设置作为动作，智能体可以通过与环境的交互学习到最优的控制策略，从而在避免电压越限和设备过载的同时，优化电网的运行效率。这种方法避免了对精确电网模型的依赖，并且能够适应电网的动态变化。

技术框架：整体框架是一个标准的强化学习循环。智能体（DRL agent）接收来自配电网环境的状态信息（例如，部分节点的电压、电流等），然后根据当前策略选择动作（例如，调整光伏逆变器的有功功率输出或无功功率补偿）。环境接收到动作后，会更新电网状态，并向智能体返回奖励信号。智能体根据奖励信号更新其策略，从而不断优化控制性能。该框架的关键在于如何设计状态空间、动作空间和奖励函数，以及如何选择合适的DRL算法。

关键创新：该论文的关键创新在于提出了一种端到端的DRL方法，可以直接从部分可观测的电网状态中学习控制策略。与传统的基于模型的方法相比，该方法不需要精确的电网模型，并且能够适应电网的动态变化。此外，该方法还能够处理高维状态空间和动作空间，从而能够控制多个分布式电源和负荷。

关键设计：论文中使用了深度神经网络作为DRL智能体的策略网络，用于将状态映射到动作。奖励函数的设计至关重要，它需要能够引导智能体学习到既能避免电压越限和设备过载，又能优化电网运行效率的策略。具体的奖励函数可能包括对电压越限和设备过载的惩罚项，以及对功率损耗的奖励项。此外，论文可能还采用了经验回放、目标网络等技术来提高DRL算法的稳定性和收敛速度。

🖼️ 关键图片

📊 实验亮点

在实际低压电网的实验中，该方法能够100%解决电压越限问题，并解决98.8%的设备过载问题。这表明该方法在实际应用中具有很高的有效性。此外，该方法仅需要观测电网中的部分节点，这大大降低了对电网数字化程度的要求，使其更易于在实际配电网中部署。

🎯 应用场景

该研究成果可应用于智能配电网的自动化运行和控制，尤其是在新能源高渗透率的场景下。通过部署该方法，配电网运营商可以在无需大量投资于电网数字化改造的情况下，提高电网的可靠性和运行效率，促进新能源的消纳，并降低用户的用电成本。未来，该方法还可以扩展到包含储能、电动汽车等更多类型分布式电源的配电网控制。

📄 摘要（原文）

In the course of the energy transition, the expansion of generation and consumption will change, and many of these technologies, such as PV systems, electric cars and heat pumps, will influence the power flow, especially in the distribution grids. Scalable methods that can make decisions for each grid connection are needed to enable congestion-free grid operation in the distribution grids. This paper presents a novel end-to-end approach to resolving congestion in distribution grids with deep reinforcement learning. Our architecture learns to curtail power and set appropriate reactive power to determine a non-congested and, thus, feasible grid state. State-of-the-art methods such as the optimal power flow (OPF) demand high computational costs and detailed measurements of every bus in a grid. In contrast, the presented method enables decisions under sparse information with just some buses observable in the grid. Distribution grids are generally not yet fully digitized and observable, so this method can be used for decision-making on the majority of low-voltage grids. On a real low-voltage grid the approach resolves 100\% of violations in the voltage band and 98.8\% of asset overloads. The results show that decisions can also be made on real grids that guarantee sufficient quality for congestion-free grid operation.

End-to-End Reinforcement Learning of Curative Curtailment with Partial Measurement Availability

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理