Distributional Reinforcement Learning-based Energy Arbitrage Strategies in Imbalance Settlement Mechanism

📄 arXiv: 2401.00015v1 📥 PDF

作者: Seyed Soroush Karimi Madahi, Bert Claessens, Chris Develder

分类: cs.LG, cs.AI, eess.SY

发布日期: 2023-12-23


💡 一句话要点

提出基于DRL的电池控制框架,用于不平衡结算机制中的能量套利,优化风险偏好。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)

关键词: 分布强化学习 能量套利 不平衡结算机制 电池控制 风险管理

📋 核心要点

  1. 可再生能源比例增加导致电力系统不平衡加剧,现有方法难以有效利用不平衡结算机制进行能量套利。
  2. 提出基于分布强化学习的电池控制框架,通过风险敏感的视角优化套利利润和风险度量的加权和。
  3. 实验表明,分布式的软Actor-Critic方法优于其他方法,且完全规避风险的代理能有效对冲价格风险。

📝 摘要(中文)

随着可再生能源渗透率的增长,电力供应变得更加不确定,导致系统不平衡加剧。这种趋势,加上单一不平衡定价机制,为平衡责任方(BRP)在不平衡结算机制中进行能量套利提供了机会。为此,我们提出了一种基于分布强化学习(DRL)的电池控制框架。我们提出的控制框架采用风险敏感的视角,允许BRP调整其风险偏好:我们的目标是优化套利利润和风险度量的加权和,同时约束电池的每日循环次数。我们使用2022年比利时不平衡价格评估了我们提出的控制框架的性能,并比较了两种最先进的RL方法,即深度Q学习和软Actor-Critic。结果表明,分布式的软Actor-Critic方法可以优于其他方法。此外,我们注意到,我们完全规避风险的代理能够适当地学习对冲与未知不平衡价格相关的风险,仅当代理对价格更有把握时才对电池进行(放)电。

🔬 方法详解

问题定义:论文旨在解决平衡责任方(BRP)如何在不平衡结算机制中进行能量套利以获取利润的问题。现有方法通常难以有效应对可再生能源带来的不确定性,并且缺乏对风险的有效管理,可能导致收益不稳定甚至亏损。

核心思路:论文的核心思路是利用分布强化学习(DRL)构建一个风险敏感的电池控制框架。通过DRL,代理能够学习在不确定性的环境中做出最优决策,同时考虑到风险因素。这种方法允许BRP根据自身的风险偏好调整策略,从而在套利利润和风险之间取得平衡。

技术框架:该框架主要包含以下几个模块:1) 环境建模:模拟不平衡结算机制,包括不平衡价格、电池状态等;2) 状态表示:将环境信息编码为DRL代理可以理解的状态;3) 动作空间:定义电池的充放电行为;4) DRL代理:使用分布式的软Actor-Critic算法学习最优策略;5) 奖励函数:设计奖励函数,鼓励代理最大化套利利润,同时惩罚风险行为。

关键创新:该论文的关键创新在于将分布强化学习应用于能量套利问题,并引入了风险敏感的视角。传统的强化学习方法通常只关注期望收益,而忽略了收益的分布情况。分布强化学习能够学习收益的完整分布,从而使代理能够更好地评估风险,并做出更明智的决策。

关键设计:论文使用了分布式的软Actor-Critic算法,该算法是一种off-policy的actor-critic方法,能够有效地处理连续动作空间。奖励函数的设计是关键,它需要平衡套利利润和风险。论文还对电池的每日循环次数进行了约束,以延长电池的使用寿命。具体参数设置和网络结构在论文中有详细描述(未知)。

📊 实验亮点

实验结果表明,基于分布式的软Actor-Critic方法的电池控制框架在比利时2022年的不平衡价格数据上表现优异,超过了传统的深度Q学习和软Actor-Critic方法。该方法能够学习到有效的套利策略,并在风险规避模式下,仅在对价格有较高把握时才进行充放电操作,从而有效降低了风险。

🎯 应用场景

该研究成果可应用于电力市场的平衡责任方(BRP),帮助他们利用电池储能系统在不平衡结算机制中进行能量套利,提高收益并降低风险。此外,该方法还可以推广到其他涉及不确定性和风险决策的能源管理场景,例如虚拟电厂的优化调度、需求响应等。

📄 摘要(原文)

Growth in the penetration of renewable energy sources makes supply more uncertain and leads to an increase in the system imbalance. This trend, together with the single imbalance pricing, opens an opportunity for balance responsible parties (BRPs) to perform energy arbitrage in the imbalance settlement mechanism. To this end, we propose a battery control framework based on distributional reinforcement learning (DRL). Our proposed control framework takes a risk-sensitive perspective, allowing BRPs to adjust their risk preferences: we aim to optimize a weighted sum of the arbitrage profit and a risk measure while constraining the daily number of cycles for the battery. We assess the performance of our proposed control framework using the Belgian imbalance prices of 2022 and compare two state-of-the-art RL methods, deep Q learning and soft actor-critic. Results reveal that the distributional soft actor-critic method can outperform other methods. Moreover, we note that our fully risk-averse agent appropriately learns to hedge against the risk related to the unknown imbalance price by (dis)charging the battery only when the agent is more certain about the price.