Economic Battery Storage Dispatch with Deep Reinforcement Learning from Rule-Based Demonstrations
作者: Manuel Sage, Martin Staniszewski, Yaoyao Fiona Zhao
分类: eess.SY, cs.LG
发布日期: 2025-04-06
DOI: 10.1109/ICCAD57653.2023.10152299
💡 一句话要点
提出基于规则演示学习的深度强化学习方法,优化电池储能经济调度
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 深度强化学习 电池储能调度 模仿学习 软Actor-Critic 规则策略 经济优化
📋 核心要点
- 传统深度强化学习算法在长时域电池调度问题中,由于奖励延迟,训练效果不佳,难以获得最优策略。
- 利用简单的、基于规则的策略生成演示数据,并结合软Actor-Critic算法进行训练,引导早期训练方向。
- 实验表明,该方法显著提升了样本效率和最终奖励,且优于演示者,对规则选择具有鲁棒性。
📝 摘要(中文)
本文提出了一种基于规则演示学习的深度强化学习算法,用于解决电池储能经济调度问题。针对长时域优化中奖励延迟导致的传统Actor-Critic算法性能下降问题,本文扩展了软Actor-Critic(SAC)算法,引入了从演示中学习的机制。特别之处在于,由于缺乏专家数据,演示数据通过简单的、基于规则的策略生成。具体而言,使用基于批发电价的if-then-else语句来收集演示数据,并将其存储在单独的回放缓冲区中,与智能体自身的经验以线性衰减的概率进行采样。实验结果表明,即使修改幅度很小,且演示数据存在不完善之处,该方法在样本效率和最终奖励方面均有显著提升。此外,该方法能够可靠地超越演示者,并且对规则的选择具有鲁棒性,只要规则足以引导早期训练朝着正确的方向发展。
🔬 方法详解
问题定义:论文旨在解决电池储能系统的经济调度问题,目标是在给定的电价和需求下,优化电池的充放电策略,以最大化收益。现有深度强化学习方法在处理长时域(如年度)调度问题时,由于奖励的延迟性,导致训练困难,难以收敛到最优策略。传统的Actor-Critic算法在面对这种延迟奖励时,表现不佳。
核心思路:论文的核心思路是利用简单的、基于规则的策略生成“演示”数据,并将其用于指导深度强化学习智能体的早期训练。通过模仿这些规则,智能体可以更快地学习到合理的充放电策略,从而克服奖励延迟带来的挑战。这种方法结合了规则策略的简单性和深度强化学习的优化能力。
技术框架:整体框架包括三个主要部分:1) 基于规则的演示数据生成器:根据批发电价等信息,使用if-then-else语句生成电池充放电策略的演示数据。2) 软Actor-Critic(SAC)智能体:负责学习最优的电池调度策略。3) 混合回放缓冲区:包含智能体自身经验和演示数据,并以线性衰减的概率对演示数据进行采样。训练过程中,智能体通过与环境交互和模仿演示数据来不断优化策略。
关键创新:该方法最重要的创新点在于利用非专家规则生成演示数据,并将其融入到深度强化学习的训练过程中。与传统的模仿学习不同,该方法不需要高质量的专家数据,而是通过简单的规则来引导智能体的早期学习。这种方法降低了对专家知识的依赖,使得深度强化学习可以更容易地应用于实际的电池调度问题。
关键设计:关键设计包括:1) 演示数据的生成规则:基于批发电价的if-then-else语句,例如,当电价低于某个阈值时充电,高于某个阈值时放电。2) 混合回放缓冲区的采样策略:以线性衰减的概率对演示数据进行采样,随着训练的进行,逐渐降低演示数据的影响,让智能体更多地依赖自身经验。3) 软Actor-Critic算法的参数设置:包括学习率、折扣因子、熵正则化系数等,这些参数需要根据具体问题进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所提出的方法在样本效率和最终奖励方面均有显著提升。与传统的SAC算法相比,该方法能够更快地收敛到更优的策略。此外,该方法能够可靠地超越演示者,并且对规则的选择具有鲁棒性,只要规则能够引导早期训练朝着正确的方向发展。这表明该方法具有很强的实用性和泛化能力。
🎯 应用场景
该研究成果可应用于智能电网、微电网等场景下的电池储能系统经济调度。通过优化电池的充放电策略,可以降低能源成本,提高电网的稳定性和可靠性,促进可再生能源的利用。该方法具有广泛的应用前景,有助于推动能源转型和可持续发展。
📄 摘要(原文)
The application of deep reinforcement learning algorithms to economic battery dispatch problems has significantly increased recently. However, optimizing battery dispatch over long horizons can be challenging due to delayed rewards. In our experiments we observe poor performance of popular actor-critic algorithms when trained on yearly episodes with hourly resolution. To address this, we propose an approach extending soft actor-critic (SAC) with learning from demonstrations. The special feature of our approach is that, due to the absence of expert demonstrations, the demonstration data is generated through simple, rule-based policies. We conduct a case study on a grid-connected microgrid and use if-then-else statements based on the wholesale price of electricity to collect demonstrations. These are stored in a separate replay buffer and sampled with linearly decaying probability along with the agent's own experiences. Despite these minimal modifications and the imperfections in the demonstration data, the results show a drastic performance improvement regarding both sample efficiency and final rewards. We further show that the proposed method reliably outperforms the demonstrator and is robust to the choice of rule, as long as the rule is sufficient to guide early training into the right direction.