Interpretable Time Series Autoregression for Periodicity Quantification
作者: Xinyu Chen, Vassilis Digalakis, Lijun Ding, Dingyi Zhuang, Jinhua Zhao
分类: cs.LG, cs.AI
发布日期: 2025-06-28 (更新: 2025-07-13)
💡 一句话要点
提出稀疏自回归模型以量化时间序列的周期性
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 时间序列分析 稀疏自回归 可解释机器学习 混合整数优化 时空数据
📋 核心要点
- 现有的时间序列建模方法在处理复杂的周期性和时变特征时存在局限性,难以提供可解释的结果。
- 本文提出的稀疏自回归(SAR)模型通过引入$ ext{l}_0$范数约束,能够有效隔离和识别主导周期性特征。
- 在实验中,TV-SAR成功揭示了纽约市共享出行数据中的日常和每周周期,以及因COVID-19导致的长期变化。
📝 摘要(中文)
时间序列自回归(AR)是建模现实系统中自相关和周期结构的经典工具。本文从可解释机器学习的角度重新审视该模型,提出稀疏自回归(SAR),通过引入$ ext{l}_0$范数约束来隔离主导周期性。我们为平稳和非平稳设置制定了精确的混合整数优化(MIO)方法,并引入了两种可扩展的扩展:用于时变SAR(TV-SAR)的决策变量修剪(DVP)策略,以及用于时空变SAR(STV-SAR)的两阶段优化方案。这些模型能够对现实世界的时空数据集进行可扩展推断。我们在大规模的出行和气候时间序列上验证了我们的框架,结果表明稀疏自回归在复杂时间序列的周期性量化中具有可解释性、灵活性和可扩展性。
🔬 方法详解
问题定义:本文旨在解决现有时间序列建模方法在识别复杂周期性和时变特征时的不足,尤其是在可解释性方面的挑战。现有方法往往难以提供清晰的周期性解释。
核心思路:论文提出的稀疏自回归(SAR)模型通过引入$ ext{l}_0$范数约束,能够有效地隔离和识别主导的周期性特征,从而提高模型的可解释性和准确性。
技术框架:整体架构包括两个主要模块:首先是稀疏自回归模型的建立,其次是针对时变和时空变特征的优化策略。具体而言,TV-SAR和STV-SAR分别处理时变和时空变的周期性特征。
关键创新:最重要的技术创新在于引入了决策变量修剪(DVP)策略和两阶段优化方案,使得模型在处理大规模时空数据时具备更好的可扩展性和灵活性。这与传统的自回归模型相比,显著提升了模型的性能和可解释性。
关键设计:在模型设计中,采用了$ ext{l}_0$范数约束作为损失函数的一部分,以确保模型能够聚焦于主导周期性特征。此外,优化过程中使用了混合整数优化(MIO)方法,以提高求解的精确性和效率。
🖼️ 关键图片
📊 实验亮点
在实验中,TV-SAR模型成功揭示了纽约市共享出行数据中的日常和每周周期,且能够识别COVID-19对出行模式的长期影响。同时,STV-SAR在气候数据集上揭示了北美四十年来温度和降水季节性的演变结构,显示出显著的可解释性和准确性。
🎯 应用场景
该研究的潜在应用领域包括交通流量预测、气候变化分析和金融市场波动等。通过提供可解释的周期性分析,研究结果能够帮助决策者更好地理解和应对复杂系统的动态变化,具有重要的实际价值和未来影响。
📄 摘要(原文)
Time series autoregression (AR) is a classical tool for modeling auto-correlations and periodic structures in real-world systems. We revisit this model from an interpretable machine learning perspective by introducing sparse autoregression (SAR), where $\ell_0$-norm constraints are used to isolate dominant periodicities. We formulate exact mixed-integer optimization (MIO) approaches for both stationary and non-stationary settings and introduce two scalable extensions: a decision variable pruning (DVP) strategy for temporally-varying SAR (TV-SAR), and a two-stage optimization scheme for spatially- and temporally-varying SAR (STV-SAR). These models enable scalable inference on real-world spatiotemporal datasets. We validate our framework on large-scale mobility and climate time series. On NYC ridesharing data, TV-SAR reveals interpretable daily and weekly cycles as well as long-term shifts due to COVID-19. On climate datasets, STV-SAR uncovers the evolving spatial structure of temperature and precipitation seasonality across four decades in North America and detects global sea surface temperature dynamics, including El Niño. Together, our results demonstrate the interpretability, flexibility, and scalability of sparse autoregression for periodicity quantification in complex time series.