GradMAP: Gradient-Based Multi-Agent Proximal Learning for Grid-Edge Flexibility
作者: Yihong Zhou, Hongtai Zeng, Thomas Morstyn
分类: cs.LG, cs.AI
发布日期: 2026-04-27
💡 一句话要点
提出GradMAP,通过梯度多智能体近端学习实现电网边缘灵活性控制。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多智能体学习 近端策略优化 智能电网 分布式能源 潮流计算 隐式微分 去中心化控制
📋 核心要点
- 现有方法难以在去中心化部署的同时,兼顾三相交流配电网络的物理约束,实现大规模电网边缘设备的协调控制。
- GradMAP通过嵌入可微的三相交流潮流模型和使用隐式微分,在原始-对偶学习循环中精确地传播网络约束违规信息。
- 实验表明,GradMAP在训练速度和效率上优于现有方法,并在样本外测试中实现了更低的运营成本和约束违规。
📝 摘要(中文)
本文提出了一种基于梯度的多智能体近端学习方法(GradMAP),旨在解决大规模电网边缘设备协调问题,该方法在部署时保持完全去中心化,同时考虑三相交流配电网络的物理特性。GradMAP为每个智能体训练独立的神经网络策略,不进行任何参数共享,并且每个智能体仅使用其自身的本地观测进行在线决策,无需通信。在离线训练期间,GradMAP将可微的三相交流潮流模型嵌入到原始-对偶学习循环中,并使用隐式微分来传播精确的网络约束违规信息,以更新策略参数。为了加速训练,GradMAP通过近端替代模型在策略输出(动作)空间(而非其他工作如PPO中使用的概率分布空间)中定义的信任区域内重用昂贵的梯度信息。在IEEE 123节点馈线上的案例研究中,GradMAP在单个工作站级NVIDIA RTX PRO 5000 Blackwell 48GB GPU上,通过15分钟的训练,学习到了管理电池、热泵和可控发电机的去中心化策略,从而最大限度地减少了三相交流潮流约束违规。与基于梯度的自监督学习基准相比,训练速度提高了3-5倍,并且训练效率远高于多智能体强化学习基准。在样本外测试中,GradMAP还实现了最低的运营成本和约束违规。
🔬 方法详解
问题定义:论文旨在解决大规模电网边缘设备(如电池、热泵、可控发电机)的去中心化协调控制问题。现有方法要么无法充分考虑三相交流配电网络的物理约束,要么训练效率低下,难以适应大规模场景。
核心思路:GradMAP的核心思路是利用梯度信息,通过多智能体近端学习,训练每个智能体独立的神经网络策略。关键在于将三相交流潮流模型嵌入到学习过程中,并使用隐式微分来精确地传播网络约束违规信息,从而指导策略更新。
技术框架:GradMAP的整体框架包含离线训练和在线部署两个阶段。离线训练阶段,每个智能体独立训练其神经网络策略,通过原始-对偶学习循环,结合可微的三相交流潮流模型和隐式微分,更新策略参数。在线部署阶段,每个智能体仅使用本地观测进行决策,无需通信。
关键创新:GradMAP的关键创新在于:1) 将可微的三相交流潮流模型嵌入到学习循环中,从而能够精确地考虑网络约束;2) 使用隐式微分来传播网络约束违规信息,从而更有效地指导策略更新;3) 通过近端替代模型在策略输出空间中定义信任区域,从而加速训练。
关键设计:GradMAP的关键设计包括:1) 使用神经网络作为每个智能体的策略函数;2) 使用原始-对偶学习循环来优化策略参数;3) 使用可微的三相交流潮流模型来计算网络约束违规;4) 使用隐式微分来计算梯度;5) 使用近端替代模型和信任区域来加速训练。具体的损失函数设计和网络结构选择可能需要根据具体的应用场景进行调整。
🖼️ 关键图片
📊 实验亮点
GradMAP在IEEE 123节点馈线上的案例研究中,仅用15分钟的训练时间,就在单个NVIDIA RTX PRO 5000 Blackwell 48GB GPU上学习到了有效的去中心化策略。与基于梯度的自监督学习基准相比,训练速度提高了3-5倍,并且训练效率远高于多智能体强化学习基准。在样本外测试中,GradMAP还实现了最低的运营成本和约束违规。
🎯 应用场景
GradMAP可应用于智能电网中大规模分布式能源的协调控制,例如电动汽车充电桩、储能系统、分布式光伏等。通过优化这些设备的运行策略,可以提高电网的稳定性、可靠性和经济性,并促进可再生能源的消纳。该方法还可扩展到其他具有复杂物理约束的多智能体系统,如交通网络、水资源管理等。
📄 摘要(原文)
Coordinating large populations of grid-edge devices requires learning methods that remain fully decentralised in deployment while still respecting three-phase AC distribution-network physics. This paper proposes gradient-based multi-agent proximal learning (GradMAP) to address this challenge. GradMAP trains independent neural-network policies for each agent without any parameter sharing, and each agent uses only its own local observation for online decision-making without communication. During offline training, GradMAP embeds a differentiable three-phase AC power-flow model in a primal-dual learning loop and uses implicit differentiation to propagate exact network-constraint violations to update the policy parameters. To speed up training, GradMAP reuses expensive environment gradients through a proximal surrogate within a trust region defined in the more direct policy-output (action) space, instead of the probability distribution space used in other works, such as PPO. In case studies with 1,000 agents managing batteries, heat pumps, and controllable generators on the IEEE 123-bus feeder, GradMAP learns decentralised policies that minimise three-phase AC load-flow constraint violations within 15 minutes of training on a single workstation-class NVIDIA RTX PRO 5000 Blackwell 48GB GPU. This is a 3--5x training speed-up over gradient-based self-supervised learning benchmarks and substantially better training efficiency than multi-agent reinforcement-learning benchmarks. In out-of-sample tests, GradMAP also delivers among the lowest operating cost and constraint violations.