Noise Titration: Exact Distributional Benchmarking for Probabilistic Time Series Forecasting

📄 arXiv: 2603.22219v1 📥 PDF

作者: Qilin Wang

分类: cs.LG, stat.ML

发布日期: 2026-03-23


💡 一句话要点

提出噪声滴定方法以解决时间序列预测的评估问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 时间序列预测 噪声滴定 统计基准 概率生成模型 非平稳性 协方差结构 动态系统

📋 核心要点

  1. 现有时间序列预测方法主要依赖单一历史轨迹的观察,无法有效评估模型在非平稳性下的表现。
  2. 本文提出通过噪声滴定的方法,将高斯噪声引入已知动力系统,转变为精确的分布推断任务。
  3. 实验结果表明,现有的零-shot基础模型在非平稳状态下表现不佳,而Fern模型能够保持结构的保真性和统计校准。

📝 摘要(中文)

现代时间序列预测几乎完全通过对单一历史轨迹的被动观察进行评估,这使得关于模型对非平稳性鲁棒性的声明在本质上无法被证伪。本文提出了一种干预式的精确统计基准评估方法,通过系统性地将校准的高斯观测噪声引入已知的混沌和随机动力系统,将预测从黑箱序列匹配游戏转变为精确的分布推断任务。由于数据生成过程和噪声方差在数学上是明确的,评估可以依赖于精确的负对数似然和校准的分布检验,而不是启发式近似。我们将Fern架构扩展为一种概率生成模型,原生参数化对称正定(SPD)锥,输出校准的联合协方差结构,避免了通用雅可比建模的计算瓶颈。

🔬 方法详解

问题定义:本文旨在解决现有时间序列预测方法在评估模型鲁棒性时的不足,尤其是在非平稳性和噪声影响下的表现评估问题。现有方法往往依赖于单一历史轨迹,缺乏系统性和可验证性。

核心思路:论文提出了一种干预式的噪声滴定方法,通过将校准的高斯噪声引入已知的混沌和随机动力系统,转变预测任务为精确的分布推断。这种方法使得数据生成过程和噪声方差明确,从而能够进行更为严谨的评估。

技术框架:整体架构包括噪声滴定过程、数据生成模型和评估模块。首先,通过噪声滴定生成带噪声的数据,然后利用扩展的Fern架构进行预测,最后通过负对数似然和校准的分布检验进行评估。

关键创新:最重要的技术创新在于将Fern架构扩展为概率生成模型,能够原生参数化对称正定锥,输出校准的联合协方差结构。这一设计避免了通用雅可比建模的计算瓶颈,提升了模型的效率和准确性。

关键设计:在模型设计中,关键参数包括噪声的校准程度和协方差结构的参数化方式。损失函数采用负对数似然,确保模型输出的概率分布与真实数据分布的匹配度。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果显示,现有的零-shot基础模型在非平稳状态下表现不佳,系统性失败,而Fern模型则能够有效捕捉底层动力学的不变测度和多变量几何,保持结构的保真性和统计校准。这表明Fern在处理复杂时间序列预测任务时具有显著优势。

🎯 应用场景

该研究的潜在应用领域包括金融市场预测、气候变化建模和其他需要处理非平稳时间序列的领域。通过提供更为精确的评估方法,能够帮助研究人员和工程师更好地理解和优化预测模型的性能,提升实际应用的可靠性。

📄 摘要(原文)

Modern time series forecasting is evaluated almost entirely through passive observation of single historical trajectories, rendering claims about a model's robustness to non-stationarity fundamentally unfalsifiable. We propose a paradigm shift toward interventionist, exact-statistical benchmarking. By systematically titrating calibrated Gaussian observation noise into known chaotic and stochastic dynamical systems, we transform forecasting from a black-box sequence matching game into an exact distributional inference task. Because the underlying data-generating process and noise variance are mathematically explicit, evaluation can rely on exact negative log-likelihoods and calibrated distributional tests rather than heuristic approximations. To fully leverage this framework, we extend the Fern architecture into a probabilistic generative model that natively parameterizes the Symmetric Positive Definite (SPD) cone, outputting calibrated joint covariance structures without the computational bottleneck of generic Jacobian modeling. Under this rigorous evaluation, we find that state-of-the-art zero-shot foundation models behave consistently with the context-parroting mechanism, failing systematically under non-stationary regime shifts and elevated noise. In contrast, Fern explicitly captures the invariant measure and multivariate geometry of the underlying dynamics, maintaining structural fidelity and statistically sharp calibration precisely where massive sequence-matching models collapse.