Augmented Lagrangian-Based Safe Reinforcement Learning Approach for Distribution System Volt/VAR Control
作者: Guibin Chen
分类: cs.AI
发布日期: 2024-10-19
备注: arXiv admin note: substantial text overlap with arXiv:2209.09772
💡 一句话要点
提出基于增广拉格朗日的安全强化学习方法,解决配电系统电压/无功控制问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 配电系统 电压/无功控制 增广拉格朗日 安全控制 约束马尔可夫决策过程 软演员-评论家算法 多智能体
📋 核心要点
- 配电系统模型不准确和不完整,导致电压/无功控制问题难以解决。
- 将电压/无功控制建模为约束马尔可夫决策过程,结合增广拉格朗日方法和软演员-评论家算法。
- 采用离线训练和在线执行的两阶段策略,以及集中训练分布式执行的多智能体框架,实现高效率和可扩展性。
📝 摘要(中文)
本文提出了一种数据驱动的解决方案,用于解决主动配电系统中的电压/无功控制问题。由于配电系统模型通常不准确且不完整,因此解决该问题非常困难。为了应对这一困境,本文将电压/无功控制问题建模为约束马尔可夫决策过程(CMDP)。通过协同结合增广拉格朗日方法和软演员-评论家算法,本文提出了一种新颖的安全离线强化学习(RL)方法来解决CMDP。演员网络以拉格朗日值函数的方式进行策略梯度更新。采用双评论家网络同步估计动作价值函数,以避免过度估计偏差。所提出的算法不需要所检查问题的强凸性保证,并且具有样本效率。采用离线训练和在线执行的两阶段策略,因此不再需要准确的配电系统模型。为了实现可扩展性,多智能体框架采用集中训练分布式执行策略,从而为大规模配电系统实现分散式电压/无功控制。使用真实电力数据的综合数值实验表明,我们提出的算法可以实现高解决方案最优性和约束合规性。
🔬 方法详解
问题定义:论文旨在解决主动配电系统中的电压/无功控制问题。现有方法依赖于精确的配电系统模型,但在实际应用中,模型往往不准确或不完整,导致控制效果不佳甚至失效。此外,传统方法难以保证控制过程中的安全性,可能违反电压或电流约束。
核心思路:论文的核心思路是将电压/无功控制问题建模为约束马尔可夫决策过程(CMDP),并利用强化学习方法在不完全依赖精确模型的情况下学习最优控制策略。通过增广拉格朗日方法将约束条件融入到奖励函数中,从而实现安全控制。采用软演员-评论家算法提高样本效率和策略探索能力。
技术框架:整体框架包括离线训练和在线执行两个阶段。在离线训练阶段,利用历史数据训练演员和评论家网络。在在线执行阶段,利用训练好的演员网络进行电压/无功控制,并根据实际运行情况进行微调。对于大规模配电系统,采用集中训练分布式执行的多智能体框架,每个智能体负责控制一部分设备,并通过通信协调控制策略。
关键创新:论文的关键创新在于将增广拉格朗日方法与软演员-评论家算法相结合,提出了一种安全且高效的强化学习方法。该方法不需要精确的配电系统模型,并且能够保证控制过程中的安全性。此外,采用集中训练分布式执行的多智能体框架,提高了算法的可扩展性。
关键设计:论文采用双评论家网络来避免动作价值函数的过度估计偏差。演员网络采用策略梯度方法进行更新,并使用拉格朗日值函数作为奖励信号。损失函数包括动作价值函数的均方误差和策略梯度损失。网络结构的选择和参数的调整需要根据具体的配电系统进行优化。
📊 实验亮点
论文通过真实电力数据的数值实验验证了所提出算法的有效性。实验结果表明,该算法能够实现高解决方案最优性和约束合规性,显著优于传统的控制方法。具体的性能数据和提升幅度在论文中进行了详细的展示。
🎯 应用场景
该研究成果可应用于智能配电网的电压/无功优化控制,提高电网运行的稳定性和经济性。通过数据驱动的方式,减少对精确模型的依赖,降低了控制系统的开发和维护成本。此外,该方法还可推广到其他约束优化问题,如电力系统调度、交通控制等领域。
📄 摘要(原文)
This paper proposes a data-driven solution for Volt-VAR control problem in active distribution system. As distribution system models are always inaccurate and incomplete, it is quite difficult to solve the problem. To handle with this dilemma, this paper formulates the Volt-VAR control problem as a constrained Markov decision process (CMDP). By synergistically combining the augmented Lagrangian method and soft actor critic algorithm, a novel safe off-policy reinforcement learning (RL) approach is proposed in this paper to solve the CMDP. The actor network is updated in a policy gradient manner with the Lagrangian value function. A double-critics network is adopted to synchronously estimate the action-value function to avoid overestimation bias. The proposed algorithm does not require strong convexity guarantee of examined problems and is sample efficient. A two-stage strategy is adopted for offline training and online execution, so the accurate distribution system model is no longer needed. To achieve scalability, a centralized training distributed execution strategy is adopted for a multi-agent framework, which enables a decentralized Volt-VAR control for large-scale distribution system. Comprehensive numerical experiments with real-world electricity data demonstrate that our proposed algorithm can achieve high solution optimality and constraints compliance.