Adaptive BESS and Grid Setpoints Optimization: A Model-Free Framework for Efficient Battery Management under Dynamic Tariff Pricing

📄 arXiv: 2408.09989v1 📥 PDF

作者: Alaa Selim, Huadong Mo, Hemanshu Pota, Daoyi Dong

分类: eess.SY

发布日期: 2024-08-19


💡 一句话要点

提出自适应BESS和电网设定点优化框架,提升动态电价下电池管理效率

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 电池储能系统 深度强化学习 软演员-评论家算法 动态电价 优化控制

📋 核心要点

  1. 现有BESS控制方法难以在动态电价下实现高效优化,尤其是在考虑不确定性因素时。
  2. 论文提出一种基于深度强化学习的自适应框架,利用改进的SAC算法优化BESS和电网设定点。
  3. 实验结果表明,该方法在优化时间和成本方面均优于传统梯度优化方法,并能有效管理SOC。

📝 摘要(中文)

本文提出了一种增强型框架,用于管理住宅社区中的电池储能系统(BESS)。首先,使用基于梯度的优化器解决非凸BESS控制问题,作为基准解决方案。然后,采用多个深度强化学习(DRL)代理解决该问题,特别强调了离策略软演员-评论家(SAC)算法。该SAC版本结合了基于非凸问题的奖励细化,应用对数缩放以提高收敛速度。此外,一种安全机制从动作空间中仅选择可行的动作,旨在改善学习曲线,加速收敛并减少计算时间。此外,DRL方法的状态表示现在包括熵项中量化的不确定性,从而增强了模型在各种熵类型中的适应性。所开发的系统严格遵守电池荷电状态(SOC)的限制,从而防止违反SOC边界并延长电池寿命。该模型的鲁棒性已在几个澳大利亚州的地区进行了验证,每个地区都具有独特的不确定性分布。通过实施改进的SAC,SOC始终在每天结束时超过50%,从而使BESS控制能够顺利地开始下一天的工作并具有一定的储备。最后,与基于梯度的优化基准相比,所提出的DRL方法在优化时间上平均减少了50%,平均节省了40%的成本。

🔬 方法详解

问题定义:论文旨在解决住宅社区中电池储能系统(BESS)在动态电价下的优化控制问题。现有方法,如基于梯度的优化器,虽然可以作为基准,但在处理非凸优化问题时效率较低,且难以适应实际应用中存在的不确定性。此外,传统方法在保证电池荷电状态(SOC)安全方面可能存在不足,影响电池寿命。

核心思路:论文的核心思路是利用深度强化学习(DRL)方法,特别是软演员-评论家(SAC)算法,来学习最优的BESS控制策略。通过引入奖励细化、安全机制和考虑不确定性的状态表示,提高算法的收敛速度、稳定性和适应性。这种方法能够更好地应对动态电价和不确定性,实现更高效的电池管理。

技术框架:整体框架包括以下几个主要模块:1) 基于梯度的优化器:用于生成基准解决方案。2) 深度强化学习代理:使用SAC算法学习控制策略。3) 奖励细化模块:基于非凸问题对奖励进行对数缩放,加速收敛。4) 安全机制模块:从动作空间中选择可行的动作,避免违反SOC限制。5) 状态表示模块:包含熵项,量化不确定性。

关键创新:论文的关键创新在于以下几个方面:1) 引入奖励细化,通过对数缩放提高SAC算法的收敛速度。2) 设计安全机制,确保选择的动作可行,避免违反SOC限制。3) 在状态表示中考虑不确定性,增强模型的适应性。与传统方法相比,该方法能够更好地应对动态电价和不确定性,实现更高效的电池管理。

关键设计:奖励函数的设计至关重要,需要平衡成本节约和SOC维持。安全机制通过设置动作约束来实现,确保选择的动作不会导致SOC超出安全范围。状态表示包括电池的SOC、电价、负载需求以及不确定性的熵值。SAC算法采用Actor-Critic架构,Actor网络负责生成动作,Critic网络负责评估动作的价值。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,与基于梯度的优化基准相比,所提出的DRL方法在优化时间上平均减少了50%,平均节省了40%的成本。此外,通过改进的SAC算法,电池荷电状态(SOC)始终在每天结束时超过50%,保证了系统的稳定运行和电池寿命。该模型在不同澳大利亚州的地区进行了验证,证明了其鲁棒性和适应性。

🎯 应用场景

该研究成果可应用于智能家居、微电网等领域,实现电池储能系统的优化控制,降低用电成本,提高能源利用效率。通过自适应调整BESS和电网设定点,可以更好地应对动态电价和不确定性,促进可再生能源的消纳,并为用户提供更可靠的电力供应。未来,该技术有望推广到更大规模的电力系统中,为构建智能、高效、可持续的能源体系做出贡献。

📄 摘要(原文)

This paper introduces an enhanced framework for managing Battery Energy Storage Systems (BESS) in residential communities. The non-convex BESS control problem is first addressed using a gradient-based optimizer, providing a benchmark solution. Subsequently, the problem is tackled using multiple Deep Reinforcement Learning (DRL) agents, with a specific emphasis on the off-policy Soft Actor-Critic (SAC) algorithm. This version of SAC incorporates reward refinement based on this non-convex problem, applying logarithmic scaling to enhance convergence rates. Additionally, a safety mechanism selects only feasible actions from the action space, aimed at improving the learning curve, accelerating convergence, and reducing computation times. Moreover, the state representation of this DRL approach now includes uncertainties quantified in the entropy term, enhancing the model's adaptability across various entropy types. This developed system adheres to strict limits on the battery's State of Charge (SOC), thus preventing breaches of SOC boundaries and extending the battery lifespan. The robustness of the model is validated across several Australian states' districts, each characterized by unique uncertainty distributions. By implementing the refined SAC, the SOC consistently surpasses 50 percent by the end of each day, enabling the BESS control to start smoothly for the next day with some reserve. Finally, this proposed DRL method achieves a mean reduction in optimization time by 50 percent and an average cost saving of 40 percent compared to the gradient-based optimization benchmark.