Lifelong reinforcement learning for health-aware fast charging of lithium-ion batteries

📄 arXiv: 2505.11061v2 📥 PDF

作者: Meng Yuan, Changfu Zou

分类: eess.SY

发布日期: 2025-05-16 (更新: 2025-07-06)


💡 一句话要点

提出基于TD3的健康感知锂电池快充策略,平衡充电速度与寿命。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 锂离子电池 快速充电 电池健康状态 深度强化学习 TD3 电池管理系统 PyBaMM

📋 核心要点

  1. 现有快充策略易加速电池老化,缩短寿命,难以兼顾充电速度与电池健康。
  2. 建立负极过电位与电池健康状态的映射,约束充电电压,减轻副反应。
  3. 基于TD3的控制器在PyBaMM仿真中,降低了电池退化,保持了快充速度。

📝 摘要(中文)

锂离子电池的快速充电一直是电动汽车和固定储能系统广泛应用的关键瓶颈,因为设计不当的快速充电会加速电池退化并缩短寿命。本文提出了一种健康感知的快速充电策略,该策略在整个使用寿命期间显式地平衡了充电速度和电池寿命。关键创新在于建立了负极过电位与电池健康状态 (SoH) 之间的映射,然后将其用于约束双延迟深度确定性策略梯度 (TD3) 框架中的终端充电电压。通过结合这种SoH相关的电压约束,我们设计的深度学习方法可以减轻副反应并有效地延长电池寿命。为了验证所提出的方法,在广泛采用的PyBaMM仿真平台中实现了一个高保真单颗粒模型与电解质,以捕获实际规模的退化现象。与传统的CC-CV及其变体以及恒流-恒过电位方法相比,生命周期仿真表明,基于TD3的控制器在保持具有竞争力的快速充电时间的同时,降低了整体退化。这些结果证明了深度强化学习在先进电池管理系统中的实际可行性,并为未来健康感知、性能优化的充电策略探索铺平了道路。

🔬 方法详解

问题定义:论文旨在解决锂离子电池快速充电过程中,充电速度与电池寿命难以兼顾的问题。传统的恒流-恒压(CC-CV)充电策略及其变体,以及恒流-恒过电位方法,在追求快速充电的同时,容易加速电池的退化,缩短电池的使用寿命。因此,如何在保证充电速度的同时,最大限度地延长电池寿命,是本研究要解决的核心问题。

核心思路:论文的核心思路是建立负极过电位与电池健康状态(SoH)之间的映射关系,并利用该映射关系来约束充电过程中的终端电压。通过控制负极过电位,可以有效地抑制锂枝晶的生长等副反应,从而减缓电池的退化速度。同时,利用深度强化学习(DRL)算法,可以在充电速度和电池寿命之间找到一个最佳的平衡点。

技术框架:论文采用双延迟深度确定性策略梯度(TD3)算法作为核心的控制框架。整体流程如下:首先,利用高保真单颗粒模型与电解质在PyBaMM仿真平台中模拟电池的充放电过程,获取电池的状态信息。然后,将电池的状态信息作为TD3算法的输入,TD3算法根据当前状态输出一个控制动作(即充电电压)。最后,将该控制动作作用于电池,并根据电池的反馈信息更新TD3算法的策略网络和价值网络。通过不断地迭代学习,TD3算法可以学习到一个最优的充电策略。

关键创新:论文的关键创新在于将电池的健康状态(SoH)显式地纳入到充电控制策略中。通过建立负极过电位与SoH之间的映射关系,可以将电池的退化程度直接反映到充电电压的约束条件中,从而实现健康感知的充电控制。这种方法与传统的充电控制策略相比,更加注重电池的长期健康,可以在保证充电速度的同时,最大限度地延长电池的寿命。

关键设计:论文的关键设计包括:1) 使用PyBaMM仿真平台建立高保真电池模型,以准确模拟电池的充放电过程和退化现象;2) 采用TD3算法作为控制框架,TD3算法具有较强的稳定性和收敛性,可以有效地解决连续控制问题;3) 设计合适的奖励函数,以平衡充电速度和电池寿命;4) 仔细调整TD3算法的超参数,以获得最佳的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于TD3的控制器与传统的CC-CV充电策略相比,在保持具有竞争力的快速充电时间的同时,显著降低了电池的整体退化。具体而言,在生命周期仿真中,TD3控制器在相同的充电时间下,电池寿命延长了XX%(具体数值未知)。这证明了深度强化学习在先进电池管理系统中的实际可行性。

🎯 应用场景

该研究成果可应用于电动汽车、储能系统等领域,通过优化电池充电策略,延长电池寿命,降低使用成本,提高能源利用效率。未来可进一步探索健康感知、性能优化的充电策略,并结合电池管理系统(BMS)实现更智能化的电池管理。

📄 摘要(原文)

Fast charging of lithium-ion batteries remains a critical bottleneck for widespread adoption of electric vehicles and stationary energy storage systems, as improperly designed fast charging can accelerate battery degradation and shorten lifespan. In this work, we address this challenge by proposing a health-aware fast charging strategy that explicitly balances charging speed and battery longevity across the entire service life. The key innovation lies in establishing a mapping between anode overpotential and the state of health (SoH) of battery, which is then used to constrain the terminal charging voltage in a twin delayed deep deterministic policy gradient (TD3) framework. By incorporating this SoH-dependent voltage constraint, our designed deep learning method mitigates side reactions and effectively extends battery life. To validate the proposed approach, a high-fidelity single particle model with electrolyte is implemented in the widely adopted PyBaMM simulation platform, capturing degradation phenomena at realistic scales. Comparative life-cycle simulations against conventional CC-CV, its variants, and constant current-constant overpotential methods show that the TD3-based controller reduces overall degradation while maintaining competitively fast charge times. These results demonstrate the practical viability of deep reinforcement learning for advanced battery management systems and pave the way for future explorations of health-aware, performance-optimized charging strategies.