Assessing the Performance-Efficiency Trade-off of Foundation Models in Probabilistic Electricity Price Forecasting

📄 arXiv: 2604.14739v1 📥 PDF

作者: Jan Niklas Lettner, Hadeer El Ashhab, Veit Hagenmeyer, Benjamin Schäfer

分类: cs.LG

发布日期: 2026-04-16

备注: Submitted to the 7th International Workshop on Energy Data and Analytics (EDA), held in conjunction with ACM e-Energy 2026


💡 一句话要点

对比研究:电力价格概率预测中基础模型与专用模型的性能效率权衡

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 电力价格预测 时间序列预测 基础模型 深度学习 概率预测 能源市场 可再生能源

📋 核心要点

  1. 可再生能源波动性增加,电力价格预测难度提升,现有方法难以准确量化不确定性。
  2. 对比研究时间序列基础模型(TSFM)与专用深度学习模型在电力价格概率预测中的性能。
  3. 实验表明TSFM通常优于专用模型,但配置良好的专用模型在特定场景下可超越TSFM。

📝 摘要(中文)

大规模可再生能源的应用给电力系统带来了显著的波动性,使得电网运行成为一个复杂的随机优化问题。准确的电力价格预测(EPF)不仅对支持诸如优化投标策略和平衡电力准备等运营决策至关重要,而且还有助于降低经济风险和提高市场效率。概率预测尤其有价值,因为它量化了来自可再生能源间歇性、市场耦合和监管变化的不确定性,使市场参与者能够做出明智的决策,从而最大限度地减少损失并优化预期收入。本文比较了四种用于欧洲投标区日前概率EPF(PEPF)的模型:确定性NHITS骨干网络与分位数回归平均(NHITS+QRA)和条件归一化流预测器(NF)与两个TSFM,即Moirai和ChronosX。结果表明,TSFM在CRPS、能量得分和跨市场条件的预测区间校准方面优于从头开始训练的特定任务深度学习模型。然而,配置良好的特定任务模型,特别是NHITS与QRA结合使用时,其性能非常接近TSFM,并且在某些情况下,例如当提供额外的有信息特征组或通过来自其他欧洲市场的少量样本学习进行调整时,它们甚至可以超过TSFM。总体而言,研究结果表明,虽然TSFM提供了富有表现力的建模能力,但传统模型仍然具有很强的竞争力,强调需要在PEPF中权衡计算成本与边际性能改进。

🔬 方法详解

问题定义:论文旨在解决电力价格概率预测(PEPF)问题,特别是在可再生能源占比日益增加的情况下,电力价格波动性增大,传统方法难以准确预测价格分布,从而影响市场参与者的决策。现有方法的痛点在于无法很好地权衡预测精度和计算效率,以及对不同市场条件和特征的适应性。

核心思路:论文的核心思路是对比研究时间序列基础模型(TSFM)和特定任务的深度学习模型在PEPF任务中的表现,评估它们的预测精度、计算效率以及对不同市场条件的适应性。通过实验分析,找出在不同场景下更合适的模型选择,从而为市场参与者提供更可靠的决策依据。

技术框架:论文采用的整体框架是对比实验研究。首先,选择四种代表性的模型:两种TSFM(Moirai和ChronosX)和两种特定任务的深度学习模型(NHITS+QRA和NF)。然后,在欧洲不同投标区的数据集上进行训练和测试,评估它们的预测性能,包括CRPS、能量得分和预测区间校准等指标。最后,分析实验结果,比较不同模型的优缺点,并探讨影响模型性能的因素。

关键创新:论文的关键创新在于对TSFM在电力价格预测领域的适用性进行了实证研究。虽然TSFM在其他时间序列预测任务中表现出色,但在电力价格预测领域的应用还相对较少。论文通过对比实验,揭示了TSFM在PEPF任务中的优势和局限性,为该领域的研究提供了有价值的参考。此外,论文还探讨了如何通过特征工程和少量样本学习来提升特定任务模型的性能,使其能够与TSFM相媲美。

关键设计:论文的关键设计包括:1) 选择具有代表性的TSFM和特定任务模型;2) 采用合适的评估指标,如CRPS和能量得分,来衡量概率预测的准确性;3) 在多个欧洲投标区的数据集上进行实验,以评估模型的泛化能力;4) 探索特征工程和少量样本学习等技术,以提升特定任务模型的性能。此外,论文还考虑了计算成本,并分析了不同模型在性能和效率之间的权衡。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TSFM在CRPS、能量得分和预测区间校准方面通常优于从头开始训练的特定任务深度学习模型。然而,配置良好的NHITS+QRA模型在某些情况下可以达到与TSFM相近甚至更好的性能,尤其是在提供额外信息特征或通过少量样本学习进行调整时。这表明在电力价格预测中,专用模型仍然具有竞争力。

🎯 应用场景

该研究成果可应用于电力市场运营、能源交易和风险管理等领域。准确的电力价格概率预测能够帮助市场参与者制定更优的投标策略,降低经济风险,提高市场效率。此外,该研究也为可再生能源并网和智能电网的建设提供了技术支持。

📄 摘要(原文)

Large-scale renewable energy deployment introduces pronounced volatility into the electricity system, turning grid operation into a complex stochastic optimization problem. Accurate electricity price forecasting (EPF) is essential not only to support operational decisions, such as optimal bidding strategies and balancing power preparation, but also to reduce economic risk and improve market efficiency. Probabilistic forecasts are particularly valuable because they quantify uncertainty stemming from renewable intermittency, market coupling, and regulatory changes, enabling market participants to make informed decisions that minimize losses and optimize expected revenues. However, it remains an open question which models to employ to produce accurate forecasts. Should these be task-specific machine learning (ML) models or Time Series Foundation Models (TSFMs)? In this work, we compare four models for day-ahead probabilistic EPF (PEPF) in European bidding zones: a deterministic NHITS backbone with Quantile-Regression Averaging (NHITS+QRA) and a conditional Normalizing-Flow forecaster (NF) are compared with two TSFMs, namely Moirai and ChronosX. On the one hand, we find that TSFMs outperform task-specific deep learning models trained from scratch in terms of CRPS, Energy Score, and predictive interval calibration across market conditions. On the other hand, we find that well-configured task-specific models, particularly NHITS combined with QRA, achieve performance very close to TSFMs, and in some scenarios, such as when supplied with additional informative feature groups or adapted via few-shot learning from other European markets, they can even surpass TSFMs. Overall, our findings show that while TSFMs offer expressive modeling capabilities, conventional models remain highly competitive, emphasizing the need to weigh computational expense against marginal performance improvements in PEPF.