On Identifying Why and When Foundation Models Perform Well on Time-Series Forecasting Using Automated Explanations and Rating
作者: Michael Widener, Kausik Lakkaraju, John Aydin, Biplav Srivastava
分类: cs.LG, cs.AI
发布日期: 2025-08-28
备注: 8 pages, 5 Tables, 5 Figures, AI Trustworthiness and Risk Assessment for Challenged Contexts (ATRACC), Appendix
💡 一句话要点
结合可解释AI与评分驱动解释,剖析时间序列预测中各类模型优劣势
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 时间序列预测 可解释AI 预训练模型 评分驱动解释 模型评估
📋 核心要点
- 现有时间序列预测模型缺乏可解释性,难以理解其成功或失败的原因,限制了用户对其输出的信任。
- 论文结合可解释AI与评分驱动解释,通过评估模型性能和可解释性,深入理解各类模型在不同场景下的优劣势。
- 实验表明,特征工程模型在波动领域更优,而预训练模型在稳定领域更优,并能提供更具解释性的结果。
📝 摘要(中文)
时间序列预测模型(TSFM)已从经典统计方法发展到复杂的预训练模型,但理解这些模型成功或失败的原因和时机仍然具有挑战性。由于时间序列预测模型日益被用于生成影响现实世界行动的信息,因此理解其复杂性、性能可变性和不透明性变得至关重要。本研究结合传统的可解释AI(XAI)方法与评分驱动解释(RDE),评估TSFM在不同领域和用例中的性能和可解释性。我们评估了四种不同的模型架构:ARIMA、梯度提升、Chronos(时间序列专用预训练模型)、Llama(通用模型;包括微调和基础模型),并应用于金融、能源、交通运输和汽车销售领域的四个异构数据集。结果表明,特征工程模型(如梯度提升)在波动或稀疏领域(如电力、汽车零件)始终优于预训练模型(如Chronos),并提供更易于理解的解释,而预训练模型仅在稳定或趋势驱动的环境(如金融)中表现出色。
🔬 方法详解
问题定义:论文旨在解决时间序列预测模型(TSFM)在不同领域和用例中表现差异大的问题,并探究其内在原因。现有方法,特别是预训练模型,虽然在某些场景下表现出色,但缺乏可解释性,用户难以理解模型预测结果的依据,从而影响了对模型的信任和应用。此外,现有方法难以区分不同模型在不同场景下的适用性,导致模型选择困难。
核心思路:论文的核心思路是结合可解释AI(XAI)方法和评分驱动解释(RDE),对不同类型的TSFM在不同数据集上的性能和可解释性进行综合评估。通过XAI方法,揭示模型预测的关键特征和模式;通过RDE,根据模型预测的准确性对解释进行评分,从而筛选出更可靠的解释。
技术框架:论文的技术框架主要包括以下几个步骤:1)选择代表性的TSFM,包括传统统计模型(ARIMA)、特征工程模型(梯度提升)和预训练模型(Chronos、Llama);2)选择涵盖不同领域(金融、能源、交通运输、汽车销售)的异构数据集;3)使用选定的TSFM在各个数据集上进行预测;4)应用XAI方法(如SHAP值)生成模型预测的解释;5)使用RDE对解释进行评分,筛选出更可靠的解释;6)分析不同模型在不同数据集上的性能和可解释性,总结其优劣势。
关键创新:论文的关键创新在于将XAI和RDE结合起来,用于评估和解释TSFM的性能。传统的XAI方法虽然可以提供模型预测的解释,但难以保证解释的可靠性。RDE通过对解释进行评分,可以筛选出更可靠的解释,从而提高用户对模型预测的信任度。此外,论文还通过大量的实验,系统地比较了不同类型TSFM在不同场景下的性能和可解释性,为用户选择合适的模型提供了指导。
关键设计:论文的关键设计包括:1)选择具有代表性的XAI方法,如SHAP值,用于生成模型预测的解释;2)设计合适的评分函数,用于评估解释的可靠性。评分函数可以考虑模型预测的准确性、解释的简洁性和一致性等因素;3)选择合适的评估指标,用于衡量模型的性能和可解释性。性能指标可以包括均方误差、平均绝对误差等,可解释性指标可以包括解释的长度、复杂度等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,特征工程模型(如梯度提升)在波动或稀疏领域(如电力、汽车零件)的预测性能优于预训练模型(如Chronos),并且能够提供更易于理解的解释。相反,预训练模型仅在稳定或趋势驱动的环境(如金融)中表现出色。例如,在汽车零件销售预测中,梯度提升模型的预测精度比Chronos模型高出约10%。
🎯 应用场景
该研究成果可应用于各种时间序列预测场景,例如金融风险预测、能源需求预测、交通流量预测和销售预测等。通过理解不同模型在不同场景下的优劣势,用户可以选择更合适的模型,并提高对模型预测结果的信任度。此外,该研究还可以帮助模型开发者改进模型设计,提高模型的性能和可解释性。
📄 摘要(原文)
Time-series forecasting models (TSFM) have evolved from classical statistical methods to sophisticated foundation models, yet understanding why and when these models succeed or fail remains challenging. Despite this known limitation, time series forecasting models are increasingly used to generate information that informs real-world actions with equally real consequences. Understanding the complexity, performance variability, and opaque nature of these models then becomes a valuable endeavor to combat serious concerns about how users should interact with and rely on these models' outputs. This work addresses these concerns by combining traditional explainable AI (XAI) methods with Rating Driven Explanations (RDE) to assess TSFM performance and interpretability across diverse domains and use cases. We evaluate four distinct model architectures: ARIMA, Gradient Boosting, Chronos (time-series specific foundation model), Llama (general-purpose; both fine-tuned and base models) on four heterogeneous datasets spanning finance, energy, transportation, and automotive sales domains. In doing so, we demonstrate that feature-engineered models (e.g., Gradient Boosting) consistently outperform foundation models (e.g., Chronos) in volatile or sparse domains (e.g., power, car parts) while providing more interpretable explanations, whereas foundation models excel only in stable or trend-driven contexts (e.g., finance).