WFCRL: A Multi-Agent Reinforcement Learning Benchmark for Wind Farm Control

📄 arXiv: 2501.13592v1 📥 PDF

作者: Claire Bizon Monroc, Ana Bušić, Donatien Dubuc, Jiamin Zhu

分类: cs.LG, cs.MA, eess.SY

发布日期: 2025-01-23

期刊: 38th Conference on Neural Information Processing Systems (NeurIPS 2024) Track on Datasets and Benchmarks


💡 一句话要点

WFCRL:用于风电场控制的多智能体强化学习基准环境

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 风电场控制 多智能体强化学习 强化学习 基准环境 迁移学习

📋 核心要点

  1. 传统风电场控制依赖复杂气动模型,计算成本高昂,难以扩展到大规模风电场。
  2. WFCRL提出一个多智能体强化学习框架,将每个风机视为智能体,通过学习优化整体发电效率。
  3. WFCRL提供静态和动态两种模拟器接口,以及真实风电场数据,并支持迁移学习策略。

📝 摘要(中文)

风电场控制问题极具挑战性,因为传统的基于模型的控制策略需要能够处理风力涡轮机之间复杂气动相互作用的可解模型,并且随着涡轮机数量的增加会遭受维度灾难。最近,无模型和多智能体强化学习方法已被用于应对这一挑战。在本文中,我们介绍了WFCRL(Wind Farm Control with Reinforcement Learning),这是第一个用于风电场控制问题的多智能体强化学习环境的开放套件。WFCRL构建了一个合作的多智能体强化学习(MARL)问题:每个涡轮机都是一个智能体,可以学习调整其偏航、桨距或扭矩,以最大化共同目标(例如,风电场的总发电量)。WFCRL还提供涡轮机负载观测,这将允许在限制涡轮机结构损坏的同时优化风电场性能。WFCRL中实现了与两个最先进的风电场模拟器的接口:静态模拟器(FLORIS)和动态模拟器(FAST.Farm)。对于每个模拟器,都提供了10种风电场布局,包括5个真实的风电场。实现了两种最先进的在线MARL算法,以说明缩放挑战。由于在FAST.Farm上进行在线学习非常耗时,因此WFCRL提供了设计从FLORIS到FAST.Farm的迁移学习策略的可能性。

🔬 方法详解

问题定义:风电场控制旨在优化风能捕获,但传统方法依赖于精确的物理模型,这些模型难以建立和维护,尤其是在考虑涡轮机之间的复杂气动相互作用时。此外,随着风电场规模的扩大,计算复杂度呈指数级增长,导致维度灾难。现有方法难以在真实动态环境中实现高效控制。

核心思路:WFCRL的核心思路是将风电场控制问题建模为一个合作式多智能体强化学习(MARL)问题。每个风力涡轮机被视为一个独立的智能体,通过学习调整自身的偏航角、桨距角或扭矩等参数,以最大化整个风电场的总发电量。这种方法避免了对复杂物理模型的依赖,并能够适应风电场的动态变化。

技术框架:WFCRL提供了一个统一的MARL环境,包括:1) 两个风电场模拟器接口(FLORIS和FAST.Farm),分别代表静态和动态模拟;2) 10个风电场布局,包括5个真实风电场;3) 两种在线MARL算法的实现,用于演示扩展性挑战;4) 支持从FLORIS到FAST.Farm的迁移学习。智能体通过与环境交互,接收状态信息(如风速、风向、相邻涡轮机状态)和奖励信号(如发电量),并根据策略选择动作。

关键创新:WFCRL的主要创新在于提供了一个标准化的、可扩展的MARL基准环境,用于风电场控制研究。它允许研究人员在统一的平台上评估和比较不同的MARL算法,并促进了风电场控制领域的算法创新。此外,WFCRL还考虑了涡轮机的结构负载,允许优化风电场性能的同时限制涡轮机的结构损坏。

关键设计:WFCRL的关键设计包括:1) 使用FLORIS和FAST.Farm两种模拟器,以平衡计算效率和仿真精度;2) 提供真实风电场数据,以提高研究的实际意义;3) 支持迁移学习,以加速在复杂动态环境中的学习;4) 提供涡轮机负载观测,以优化风电场性能的同时考虑涡轮机的结构安全。奖励函数的设计至关重要,通常设置为整个风电场的总发电量,并可能包含对涡轮机负载的惩罚项。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

WFCRL提供了一个标准化的MARL基准环境,方便研究者评估算法性能。论文实现了两种在线MARL算法,并在提供的风电场布局上进行了实验。由于FAST.Farm模拟耗时,论文还探索了从FLORIS到FAST.Farm的迁移学习策略,为实际应用提供了可行方案。具体性能数据未知,但该基准环境的建立本身就是一个重要贡献。

🎯 应用场景

WFCRL的研究成果可应用于实际风电场的优化控制,提高发电效率,降低运维成本,延长风机寿命。通过多智能体强化学习,风电场能够更好地适应风况变化,实现智能化运行。该研究还有助于推动智能电网的发展,提高可再生能源的利用率。

📄 摘要(原文)

The wind farm control problem is challenging, since conventional model-based control strategies require tractable models of complex aerodynamical interactions between the turbines and suffer from the curse of dimension when the number of turbines increases. Recently, model-free and multi-agent reinforcement learning approaches have been used to address this challenge. In this article, we introduce WFCRL (Wind Farm Control with Reinforcement Learning), the first open suite of multi-agent reinforcement learning environments for the wind farm control problem. WFCRL frames a cooperative Multi-Agent Reinforcement Learning (MARL) problem: each turbine is an agent and can learn to adjust its yaw, pitch or torque to maximize the common objective (e.g. the total power production of the farm). WFCRL also offers turbine load observations that will allow to optimize the farm performance while limiting turbine structural damages. Interfaces with two state-of-the-art farm simulators are implemented in WFCRL: a static simulator (FLORIS) and a dynamic simulator (FAST.Farm). For each simulator, $10$ wind layouts are provided, including $5$ real wind farms. Two state-of-the-art online MARL algorithms are implemented to illustrate the scaling challenges. As learning online on FAST.Farm is highly time-consuming, WFCRL offers the possibility of designing transfer learning strategies from FLORIS to FAST.Farm.