SPLICE: Latent Diffusion over JEPA Embeddings for Conformal Time-Series Inpainting

📄 arXiv: 2605.00126v1 📥 PDF

作者: Arnaud Zinflou

分类: cs.LG, eess.SP, stat.ML

发布日期: 2026-04-30


💡 一句话要点

SPLICE:基于JEPA嵌入的潜在扩散模型,用于具有置信度的时间序列修复

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 时间序列插补 生成模型 潜在扩散模型 保形预测 自监督学习 电力系统 可靠性保证

📋 核心要点

  1. 现有时间序列插补模型缺乏有限样本可靠性保证,无法提供置信区间,限制了其在电力系统等关键领域的应用。
  2. SPLICE框架结合了JEPA编码器、条件潜在桥、小时条件解码器和自适应保形推理,实现高质量插补并提供可靠的预测区间。
  3. 实验表明,SPLICE在多个数据集上优于现有基线,实现了更低的MSE和更好的CRPS,同时保证了预测区间的覆盖率。

📝 摘要(中文)

时间序列插补的生成模型虽然具有很高的重建精度,但缺乏有限样本可靠性保证,这在电力系统中是一个关键限制,因为插补值会影响调度和规划。我们提出了SPLICE(具有保形包络的自监督预测潜在插补),这是一个模块化框架,将潜在生成插补与无分布、在线自适应预测区间相结合。JEPA编码器将每日负荷段映射到64维潜在空间;具有四种采样模式的条件潜在桥生成候选间隙轨迹;小时条件解码器映射回信号空间;自适应保形推理(ACI)用覆盖保证的预测带包装输出。流匹配变体在5-10个ODE步骤中实现了与DDIM相当的质量(5-10倍加速)。在13个负荷数据集(9个专有数据集、3个UCI电力数据集、ETTh1)上,SPLICE实现了最低的平均仅负荷MSE(0.056),在91天间隙的12个非退化数据集中赢得了9个,在所有间隙长度的32个数据集中赢得了18个,优于五个已建立的基线,并产生了最佳的CRPS(0.161,比最强的竞争对手低-18.3%)。ACI提供93-95%的经验覆盖率,纠正了静态保形预测观察到的高达7.5个百分点的覆盖不足失败。在九个馈线上训练的池化JEPA编码器转移到四个未见过的域,仅通过快速桥微调即可匹配或超过每个数据集的oracle。

🔬 方法详解

问题定义:论文旨在解决时间序列数据插补问题,特别是在电力系统等对可靠性要求高的场景中。现有生成模型虽然能实现较高的插补精度,但无法提供置信区间等可靠性保证,这限制了它们的应用。现有方法的痛点在于缺乏对插补结果不确定性的量化。

核心思路:论文的核心思路是将生成模型与保形预测相结合,利用生成模型进行插补,然后使用保形预测方法为插补结果提供具有覆盖率保证的预测区间。这种方法既能保证插补的准确性,又能提供可靠的不确定性估计。

技术框架:SPLICE框架主要包含以下几个模块:1) JEPA编码器:将时间序列数据编码到低维潜在空间。2) 条件潜在桥:在潜在空间中生成候选的插补轨迹。3) 小时条件解码器:将潜在空间的插补轨迹解码回原始信号空间。4) 自适应保形推理(ACI):利用ACI方法为插补结果生成具有覆盖率保证的预测区间。整个流程是先编码,然后在潜在空间进行插补,再解码回原始空间,最后利用ACI提供可靠性保证。

关键创新:论文的关键创新在于将自监督学习的JEPA模型与扩散模型相结合,并在扩散模型的潜在空间中进行插补。此外,使用自适应保形推理(ACI)来动态调整预测区间,以保证覆盖率,克服了静态保形预测的不足。这种结合使得模型既能实现高质量的插补,又能提供可靠的预测区间。

关键设计:JEPA编码器使用自监督学习方法进行训练,能够有效地提取时间序列数据的特征。条件潜在桥使用流匹配方法,加速了采样过程。自适应保形推理(ACI)根据实际的预测误差动态调整预测区间的大小,以保证覆盖率。损失函数包括重建损失和保形损失,用于优化模型的插补精度和覆盖率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SPLICE在13个负荷数据集上取得了显著的性能提升,在91天间隙的12个非退化数据集中,有9个数据集的Load-only MSE最低(0.056),在所有间隙长度的32个数据集中,有18个数据集优于五个基线。同时,SPLICE实现了最佳的CRPS(0.161,比最强的竞争对手低-18.3%)。ACI能够提供93-95%的经验覆盖率,有效纠正了静态保形预测的覆盖不足问题。

🎯 应用场景

SPLICE框架可应用于电力系统负荷预测、金融时间序列分析、医疗健康数据修复等领域。该方法能够提供具有可靠性保证的时间序列插补,有助于提高决策的准确性和可靠性,尤其是在对风险敏感的应用场景中具有重要价值。未来可扩展到其他类型的时间序列数据和更复杂的应用场景。

📄 摘要(原文)

Generative models for time-series imputation achieve strong reconstruction accuracy, yet provide no finite-sample reliability guarantees, a critical limitation in power systems where imputed values inform dispatch and planning. We introduce SPLICE (Self-supervised Predictive Latent Inpainting with Conformal Envelopes), a modular framework coupling latent generative imputation with distribution-free, online-adaptive prediction intervals. A JEPA encoder maps daily load segments into a 64-dimensional latent space; a conditional latent bridge with four sampling modes generates candidate gap trajectories; an hourly-conditioned decoder maps back to signal space; and Adaptive Conformal Inference (ACI) wraps the output with coverage-guaranteed prediction bands. The flow-matching variant achieves comparable quality to DDIM in 5--10 ODE steps (5-10x speedup). On thirteen load datasets (nine proprietary, three UCI Electricity, ETTh1), SPLICE achieves the lowest mean Load-only MSE (0.056), winning 9/12 non-degenerate datasets at 91-day gaps and 18/32 across all gap lengths vs. five established baselines, and produces the best CRPS (0.161, -18.3% vs. the strongest competitor). ACI delivers 93--95% empirical coverage, correcting under-coverage failures of up to 7.5 pp observed with static conformal prediction. A pooled JEPA encoder trained on nine feeds transfers to four unseen domains, matching or exceeding per-dataset oracles with only a quick bridge fine-tuning.