Two-Stage Active Distribution Network Voltage Control via LLM-RL Collaboration: A Hybrid Knowledge-Data-Driven Approach
作者: Xu Yang, Chenhui Lin, Xiang Ma, Dong Liu, Ran Zheng, Haotian Liu, Wenchuan Wu
分类: eess.SY, cs.AI
发布日期: 2026-02-25
💡 一句话要点
提出基于LLM-RL协同的两阶段主动配电网电压控制方法,解决分布式光伏带来的电压控制难题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 主动配电网 电压控制 大型语言模型 强化学习 混合智能 分布式光伏 知识驱动 数据驱动
📋 核心要点
- 现有数据驱动的电压控制方法需要大量试错,难以整合日前预测和电网规范等异构信息。
- 提出一种混合知识-数据驱动方法,利用LLM和RL代理的动态协作实现两阶段电压控制。
- 通过LLM自进化机制和RL预训练-微调流程,有效提升和协调了两个代理的策略,提高了训练效率和电压控制性能。
📝 摘要(中文)
随着分布式光伏(PVs)日益融入主动配电网(ADNs),运营挑战日益严峻,因此必须协调各种设备以减轻电压违规并提高电能质量。尽管现有的数据驱动方法在电压控制问题上已显示出有效性,但它们通常需要大量的试错探索,并且难以整合异构信息,例如日前预测和基于语义的电网规范。考虑到实际ADN中的运行场景和要求,本文提出了一种混合知识-数据驱动方法,该方法利用大型语言模型(LLM)代理和强化学习(RL)代理之间的动态协作来实现两阶段电压控制。在日前阶段,LLM代理接收粗略的区域级预测,并生成有载调压变压器(OLTC)和并联电容器(SC)的调度策略,以调节整体电压曲线。然后在日内阶段,基于精确的节点级测量,RL代理通过推导PV逆变器的无功功率生成策略来优化终端电压。在LLM-RL协作框架的基础上,我们进一步提出了LLM代理的自进化机制和RL代理的预训练-微调流程,从而有效地增强和协调了两个代理的策略。所提出的方法不仅更符合实际的运行特性,而且有效地利用了LLM代理固有的知识和推理能力,从而显着提高了训练效率和电压控制性能。全面的比较和消融研究证明了该方法的有效性。
🔬 方法详解
问题定义:论文旨在解决主动配电网中由于大量分布式光伏接入引起的电压控制问题。现有数据驱动方法存在需要大量试错探索、难以整合异构信息(如日前预测和电网规范)的痛点。这些痛点导致控制策略的训练效率低,且难以适应实际电网的复杂运行环境。
核心思路:论文的核心思路是结合大型语言模型(LLM)的知识推理能力和强化学习(RL)的决策能力,构建一个混合知识-数据驱动的电压控制框架。LLM负责利用宏观信息(如日前预测)进行粗略的策略规划,RL负责利用微观信息(如实时电压测量)进行精细的策略调整。这种分工协作能够有效提高控制策略的训练效率和鲁棒性。
技术框架:该方法采用两阶段电压控制框架。第一阶段是日前阶段,LLM代理接收区域级的功率预测,并生成有载调压变压器(OLTC)和并联电容器(SC)的调度策略,以调节整体电压曲线。第二阶段是日内阶段,RL代理基于精确的节点级电压测量,通过控制光伏逆变器的无功功率输出来精细化调整电压。LLM和RL代理通过协作,共同实现电压控制目标。
关键创新:该方法最重要的创新点在于LLM和RL的动态协作。LLM利用其知识推理能力进行初步的策略规划,为RL提供良好的初始状态和探索方向,从而加速RL的训练过程。同时,RL的精细化控制策略可以弥补LLM在处理复杂环境时的不足。此外,论文还提出了LLM的自进化机制和RL的预训练-微调流程,进一步提升了两个代理的性能。
关键设计:LLM代理的设计包括提示工程(prompt engineering),用于指导LLM生成合适的调度策略。RL代理的设计包括状态空间、动作空间、奖励函数的设计,以及网络结构的选择。LLM的自进化机制可能涉及基于历史经验的策略更新。RL的预训练-微调流程可能涉及使用离线数据进行预训练,然后使用在线数据进行微调。具体的参数设置、损失函数和网络结构等细节在论文中应该有更详细的描述(未知)。
📊 实验亮点
论文通过综合比较和消融实验验证了所提出方法的有效性。实验结果表明,该方法能够显著提高电压控制性能,并提升训练效率。具体的性能数据(例如电压越限次数降低百分比、训练时间缩短百分比)和对比基线(例如传统控制方法、单一RL方法)需要在论文中查找(未知)。
🎯 应用场景
该研究成果可应用于实际主动配电网的电压控制,提高电网对分布式光伏的接纳能力,降低电压越限风险,提升电能质量。该方法具有推广潜力,可应用于其他类型的电力系统控制问题,例如微网能量管理、需求响应等,具有重要的实际应用价值和经济效益。
📄 摘要(原文)
The growing integration of distributed photovoltaics (PVs) into active distribution networks (ADNs) has exacerbated operational challenges, making it imperative to coordinate diverse equipment to mitigate voltage violations and enhance power quality. Although existing data-driven approaches have demonstrated effectiveness in the voltage control problem, they often require extensive trial-and-error exploration and struggle to incorporate heterogeneous information, such as day-ahead forecasts and semantic-based grid codes. Considering the operational scenarios and requirements in real-world ADNs, in this paper, we propose a hybrid knowledge-data-driven approach that leverages dynamic collaboration between a large language model (LLM) agent and a reinforcement learning (RL) agent to achieve two-stage voltage control. In the day-ahead stage, the LLM agent receives coarse region-level forecasts and generates scheduling strategies for on-load tap changer (OLTC) and shunt capacitors (SCs) to regulate the overall voltage profile. Then in the intra-day stage, based on accurate node-level measurements, the RL agent refines terminal voltages by deriving reactive power generation strategies for PV inverters. On top of the LLM-RL collaboration framework, we further propose a self-evolution mechanism for the LLM agent and a pretrain-finetune pipeline for the RL agent, effectively enhancing and coordinating the policies for both agents. The proposed approach not only aligns more closely with practical operational characteristics but also effectively utilizes the inherent knowledge and reasoning capabilities of the LLM agent, significantly improving training efficiency and voltage control performance. Comprehensive comparisons and ablation studies demonstrate the effectiveness of the proposed method.