Reinforcement Learning-Based Energy Management for Industrial Park with Heterogeneous Batteries under Demand Response
作者: Meng Yuan, Tinghui Yan, Zhezhuang Xu
分类: eess.SY
发布日期: 2026-04-07
💡 一句话要点
提出基于强化学习的能源管理框架以优化工业园区的电池使用
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 能源管理 强化学习 需求响应 电池老化 可再生能源 工业园区 优化算法
📋 核心要点
- 现有方法在协调光伏系统、储能系统和电动汽车时,未能有效考虑电池老化和不同区域的运营目标。
- 本文提出的解决方案是一个基于需求响应的能源管理框架,能够综合优化多种资源的使用效率。
- 实验结果显示,该框架在降低运营成本方面表现优异,节省幅度显著,且维持了良好的室内舒适度。
📝 摘要(中文)
本论文探讨了在工业园区中整合光伏系统、固定能源存储系统和电动汽车,并结合需求响应(DR)程序的可能性,以降低成本和提高可再生能源利用率。由于办公区和生产区的运营目标不同,协调这些资源面临挑战,且电池老化成本常被忽视。本文提出了一种基于DR的能源管理框架,联合优化电网交互成本、热舒适度、电动汽车出发时的电量需求、碳排放和电池老化。通过动态能量分配比模型和调度级别的老化模型,问题被建模为马尔可夫决策过程(MDP),并采用深度确定性策略梯度(DDPG)算法求解。高保真模拟结果表明,该框架在维持室内舒适度的同时,显著降低了总运营成本,相较于基于规则的DR策略和传统的时段套利方法,分别节省了44.58%和40.68%。
🔬 方法详解
问题定义:本文旨在解决工业园区中光伏系统、储能系统和电动汽车的协调管理问题,现有方法未能充分考虑电池老化和不同区域的运营目标,导致资源利用效率低下。
核心思路:论文提出了一种基于需求响应的能源管理框架,通过动态能量分配比和调度级别的老化模型,优化电网交互成本、热舒适度等多项指标,旨在实现资源的高效利用。
技术框架:整体架构包括数据采集、动态能量分配、老化模型构建和优化决策四个主要模块。通过马尔可夫决策过程(MDP)建模,利用深度确定性策略梯度(DDPG)算法进行求解。
关键创新:最重要的技术创新在于引入了电池老化模型和动态能量分配比,解决了传统方法中忽视电池老化成本的问题,从而提升了整体能源管理的智能化水平。
关键设计:在模型设计中,采用了调度级别的电池老化模型,设置了多项损失函数以平衡成本和舒适度,同时优化了DDPG算法的网络结构,以提高学习效率和决策准确性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所提出的框架在维持室内舒适度的同时,显著降低了总运营成本,分别比基于规则的DR策略和传统时段套利方法节省了44.58%和40.68%。这一成果展示了强化学习在能源管理中的有效应用。
🎯 应用场景
该研究的潜在应用领域包括工业园区的能源管理、智能电网和可再生能源的集成。通过优化能源使用,能够显著降低运营成本,提高可再生能源的利用率,具有重要的实际价值和广泛的未来影响。
📄 摘要(原文)
The integration of photovoltaic (PV) systems, stationary energy storage systems (ESSs), and electric vehicles (EVs) alongside demand response (DR) programmes in industrial parks presents opportunities to reduce costs and improve renewable energy utilisation. Coordinating these resources is challenging because office and production zones have distinct operational objectives, and battery ageing costs are often ignored. This paper proposes a DR-based energy management framework that jointly optimises grid interaction costs, thermal comfort, EV departure state-of-charge requirements, carbon emissions, and battery ageing. We model heterogeneous load characteristics using a dynamic energy distribution ratio and incorporate dispatch-level ageing models for both ESS and EV batteries. The problem is formulated as a Markov decision process (MDP) and solved with a deep deterministic policy gradient (DDPG) algorithm. High-fidelity simulations using data from a practical industrial park in China show the framework maintains indoor comfort while significantly reducing total operating costs, yielding savings of 44.58\% and 40.68\% compared with a rule-based DR strategy and a conventional time-of-use arbitrage approach, respectively.