Perturbed Decision-Focused Learning for Modeling Strategic Energy Storage

📄 arXiv: 2406.17085v2 📥 PDF

作者: Ming Yi, Saud Alghumayjan, Bolun Xu

分类: eess.SY

发布日期: 2024-06-24 (更新: 2024-12-05)


💡 一句话要点

提出扰动决策聚焦学习框架,用于建模战略性能量存储决策

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 能量存储 决策聚焦学习 模型预测控制 扰动优化 智能电网

📋 核心要点

  1. 现有方法难以将能量存储的物理模型有效融入机器学习流程,限制了其在能量管理中的应用。
  2. 论文提出一种双层决策聚焦学习框架,通过扰动损失函数保证可微性,从而学习隐藏的奖励函数。
  3. 实验表明,该方法在能量存储套利和行为预测任务中,均优于现有方法,验证了其有效性。

📝 摘要(中文)

本文提出了一种新颖的决策聚焦框架,将物理能量存储模型集成到机器学习流程中。受能量存储模型预测控制的启发,我们的端到端方法结合了存储模型的先验知识,并推断出激励能量存储决策的隐藏奖励。这通过一个双层框架实现,该框架结合了预测层和优化层。我们将扰动思想引入到设计的决策聚焦损失函数中,以确保线性存储模型上的可微性,并提供了扰动损失函数的理论分析。我们还开发了一种混合损失函数,用于有效的模型训练。我们为提出的框架提供了两个具有挑战性的应用:能量存储套利和能量存储行为预测。在真实价格数据上的数值实验表明,我们的套利方法实现了相对于现有方法的最高利润。在合成和真实世界能量存储数据上的数值实验表明,我们的方法实现了相对于现有基准方法的最佳行为预测性能,这表明了我们方法的有效性。

🔬 方法详解

问题定义:论文旨在解决如何将能量存储的物理模型有效地融入到机器学习流程中的问题。现有方法通常将预测和优化分开处理,忽略了能量存储决策的内在逻辑,导致次优的性能。此外,直接优化能量存储决策通常涉及非凸优化问题,难以进行端到端的训练。

核心思路:论文的核心思路是采用决策聚焦学习(Decision-Focused Learning)框架,将能量存储的物理模型嵌入到机器学习模型中,并通过学习一个隐藏的奖励函数来指导能量存储决策。通过这种方式,模型可以学习到能量存储的内在逻辑,从而做出更优的决策。为了解决非凸优化问题带来的不可微性,论文引入了扰动(Perturbation)的思想,使得损失函数可微,从而可以进行端到端的训练。

技术框架:论文提出的框架是一个双层结构。第一层是预测层,用于预测未来一段时间内的能量价格或其他相关信息。第二层是优化层,基于预测层的结果和能量存储的物理模型,通过优化一个目标函数来制定能量存储策略。整个框架通过一个决策聚焦损失函数进行端到端的训练,该损失函数衡量了预测的能量存储策略与实际最优策略之间的差距。

关键创新:论文的关键创新在于将扰动思想引入到决策聚焦损失函数中,从而保证了线性存储模型上的可微性。传统的决策聚焦学习方法在处理涉及线性约束的优化问题时,通常会遇到不可微的问题,导致无法进行有效的训练。通过引入扰动,论文成功地解决了这个问题,使得可以利用梯度下降等方法进行端到端的训练。

关键设计:论文设计了一个混合损失函数,结合了预测损失和决策损失。预测损失衡量了预测层输出的准确性,决策损失衡量了优化层输出的能量存储策略的优劣。此外,论文还对扰动的大小进行了精心的设计,以保证损失函数的可微性和优化效果。具体而言,扰动项被添加到优化问题的目标函数中,其大小需要根据问题的具体情况进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在能量存储套利任务中,该方法在真实价格数据上实现了最高的利润,优于现有方法。在能量存储行为预测任务中,该方法在合成和真实世界数据上均取得了最佳的预测性能,显著优于现有基准方法。实验结果表明,该方法能够有效地学习能量存储的内在逻辑,并做出更优的决策。

🎯 应用场景

该研究成果可应用于智能电网、微电网等能源管理系统中,优化能量存储设备的运行策略,提高能源利用效率,降低能源成本。例如,可以用于能量套利,在电价低谷时存储能量,在电价高峰时释放能量,从而获取利润。此外,还可以用于预测用户的能量存储行为,为电力公司提供决策支持。

📄 摘要(原文)

This paper presents a novel decision-focused framework integrating the physical energy storage model into machine learning pipelines. Motivated by the model predictive control for energy storage, our end-to-end method incorporates the prior knowledge of the storage model and infers the hidden reward that incentivizes energy storage decisions. This is achieved through a dual-layer framework, combining a prediction layer with an optimization layer. We introduce the perturbation idea into the designed decision-focused loss function to ensure the differentiability over linear storage models, supported by a theoretical analysis of the perturbed loss function. We also develop a hybrid loss function for effective model training. We provide two challenging applications for our proposed framework: energy storage arbitrage, and energy storage behavior prediction. The numerical experiments on real price data demonstrate that our arbitrage approach achieves the highest profit against existing methods. The numerical experiments on synthetic and real-world energy storage data show that our approach achieves the best behavior prediction performance against existing benchmark methods, which shows the effectiveness of our method.