Degradation-Aware Frequency Regulation of a Heterogeneous Battery Fleet via Reinforcement Learning

📄 arXiv: 2601.22865v1 📥 PDF

作者: Tanay Raghunandan Srinivasa, Vivek Deulkar, Jia Bhargava, Mohammad Hajiesmaili, Prashant Shenoy

分类: eess.SY, cs.AI

发布日期: 2026-01-30

备注: 11 pages, 2 figures


💡 一句话要点

提出一种基于强化学习的异构电池组频率调节方法,优化电池寿命。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 电池调度 频率调节 强化学习 循环退化 极限学习机 储能系统 马尔可夫决策过程

📋 核心要点

  1. 现有电池调度方法难以处理循环退化带来的非马尔可夫性,无法有效优化电池寿命。
  2. 将电池组调度问题建模为MDP,设计密集代理奖励函数,引导强化学习算法关注长期循环深度减少。
  3. 采用基于ELM的函数逼近强化学习方法,有效处理大规模状态-动作空间,并在真实数据上验证了性能提升。

📝 摘要(中文)

电池储能系统越来越多地被部署为快速响应资源,用于电网平衡服务(如频率调节)和缓解可再生能源发电的不确定性。然而,重复的充放电会引起循环退化并缩短电池寿命。本文研究了异构电池组的实时调度问题,该电池组共同跟踪随机平衡信号,同时受到每个电池的爬坡率和容量约束,并最大限度地减少长期循环退化。循环退化本质上是路径相关的:它由荷电状态 (SoC) 轨迹形成的充放电循环决定,通常通过雨流循环计数来量化。这种非马尔可夫结构使得难以将退化表示为每个时间步的附加成本,从而使经典的动态规划方法复杂化。我们通过将电池组调度问题表述为具有约束动作空间的马尔可夫决策过程 (MDP) 来解决这一挑战,并设计了一个密集的代理奖励,该奖励在每个时间步提供信息丰富的反馈,同时与长期循环深度减少保持一致。为了将学习扩展到由细粒度 SoC 离散化和非对称的每个电池约束引起的大型状态-动作空间,我们开发了一种函数逼近强化学习方法,该方法使用极限学习机 (ELM) 作为随机非线性特征图,并结合线性时序差分学习。我们在一个玩具马尔可夫信号模型和一个从特拉华大学获得的真实世界调节信号轨迹训练的马尔可夫模型上评估了所提出的方法,并证明与基线调度策略相比,循环深度发生率和退化指标持续降低。

🔬 方法详解

问题定义:论文旨在解决异构电池组在频率调节应用中的实时调度问题,目标是在满足电网平衡需求的同时,最小化电池的长期循环退化。现有方法难以处理循环退化的路径依赖性,无法将其转化为易于优化的即时成本,导致电池寿命缩短。

核心思路:论文的核心思路是将电池组调度问题建模为马尔可夫决策过程(MDP),并设计一个能够反映长期退化影响的密集代理奖励函数。通过强化学习算法,学习最优的调度策略,从而在满足电网需求的同时,降低电池的循环退化。

技术框架:整体框架包括以下几个主要模块:1) 环境建模:将异构电池组和电网频率调节信号建模为MDP环境,包括状态空间(电池SoC、调节信号等)、动作空间(电池充放电功率)和转移概率。2) 奖励函数设计:设计一个密集代理奖励函数,该函数在每个时间步提供反馈,并与长期循环深度减少目标对齐。3) 强化学习算法:采用基于极限学习机(ELM)的函数逼近强化学习方法,学习最优的调度策略。4) 策略评估:在真实世界调节信号数据上评估所学策略的性能。

关键创新:论文的关键创新在于:1) 将循环退化问题转化为MDP框架下的优化问题,克服了非马尔可夫性带来的挑战。2) 设计了一种能够反映长期退化影响的密集代理奖励函数,引导强化学习算法关注电池寿命。3) 采用基于ELM的函数逼近方法,有效处理了大规模状态-动作空间。

关键设计:关键设计包括:1) 奖励函数的设计:奖励函数综合考虑了频率调节性能和电池退化,通过调整权重平衡两者之间的关系。2) ELM网络结构:ELM作为随机非线性特征映射,其参数随机初始化,无需训练,降低了计算复杂度。3) 线性时序差分学习:利用线性时序差分学习更新策略,保证了算法的收敛性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,所提出的方法在玩具马尔可夫信号模型和真实世界调节信号数据上均取得了显著的性能提升。与基线调度策略相比,循环深度发生率和退化指标均有明显降低,验证了该方法在延长电池寿命方面的有效性。具体性能数据未知。

🎯 应用场景

该研究成果可应用于大规模储能系统的优化调度,尤其是在电网频率调节、可再生能源消纳等场景下。通过延长电池寿命,降低储能系统的运营成本,提高电网的稳定性和经济性。未来可进一步扩展到电动汽车充电站的智能调度,优化电池使用策略。

📄 摘要(原文)

Battery energy storage systems are increasingly deployed as fast-responding resources for grid balancing services such as frequency regulation and for mitigating renewable generation uncertainty. However, repeated charging and discharging induces cycling degradation and reduces battery lifetime. This paper studies the real-time scheduling of a heterogeneous battery fleet that collectively tracks a stochastic balancing signal subject to per-battery ramp-rate and capacity constraints, while minimizing long-term cycling degradation. Cycling degradation is fundamentally path-dependent: it is determined by charge-discharge cycles formed by the state-of-charge (SoC) trajectory and is commonly quantified via rainflow cycle counting. This non-Markovian structure makes it difficult to express degradation as an additive per-time-step cost, complicating classical dynamic programming approaches. We address this challenge by formulating the fleet scheduling problem as a Markov decision process (MDP) with constrained action space and designing a dense proxy reward that provides informative feedback at each time step while remaining aligned with long-term cycle-depth reduction. To scale learning to large state-action spaces induced by fine-grained SoC discretization and asymmetric per-battery constraints, we develop a function-approximation reinforcement learning method using an Extreme Learning Machine (ELM) as a random nonlinear feature map combined with linear temporal-difference learning. We evaluate the proposed approach on a toy Markovian signal model and on a Markovian model trained from real-world regulation signal traces obtained from the University of Delaware, and demonstrate consistent reductions in cycle-depth occurrence and degradation metrics compared to baseline scheduling policies.