SPLICE: Latent Diffusion over JEPA Embeddings for Conformal Time-Series Inpainting

作者: Arnaud Zinflou

分类: cs.LG, eess.SP, stat.ML

发布日期: 2026-04-30

💡 一句话要点

SPLICE：基于JEPA嵌入的潜在扩散模型，用于具有置信度的时间序列修复

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 时间序列插补 生成模型 潜在扩散模型 保形预测 自监督学习 电力系统 可靠性保证

📋 核心要点

现有时间序列插补模型缺乏有限样本可靠性保证，无法提供置信区间，限制了其在电力系统等关键领域的应用。
SPLICE框架结合了JEPA编码器、条件潜在桥、小时条件解码器和自适应保形推理，实现高质量插补并提供可靠的预测区间。
实验表明，SPLICE在多个数据集上优于现有基线，实现了更低的MSE和更好的CRPS，同时保证了预测区间的覆盖率。

📝 摘要（中文）

时间序列插补的生成模型虽然具有很高的重建精度，但缺乏有限样本可靠性保证，这在电力系统中是一个关键限制，因为插补值会影响调度和规划。我们提出了SPLICE（具有保形包络的自监督预测潜在插补），这是一个模块化框架，将潜在生成插补与无分布、在线自适应预测区间相结合。JEPA编码器将每日负荷段映射到64维潜在空间；具有四种采样模式的条件潜在桥生成候选间隙轨迹；小时条件解码器映射回信号空间；自适应保形推理（ACI）用覆盖保证的预测带包装输出。流匹配变体在5-10个ODE步骤中实现了与DDIM相当的质量（5-10倍加速）。在13个负荷数据集（9个专有数据集、3个UCI电力数据集、ETTh1）上，SPLICE实现了最低的平均仅负荷MSE（0.056），在91天间隙的12个非退化数据集中赢得了9个，在所有间隙长度的32个数据集中赢得了18个，优于五个已建立的基线，并产生了最佳的CRPS（0.161，比最强的竞争对手低-18.3%）。ACI提供93-95%的经验覆盖率，纠正了静态保形预测观察到的高达7.5个百分点的覆盖不足失败。在九个馈线上训练的池化JEPA编码器转移到四个未见过的域，仅通过快速桥微调即可匹配或超过每个数据集的oracle。

🔬 方法详解

问题定义：论文旨在解决时间序列数据插补问题，特别是在电力系统等对可靠性要求高的场景中。现有生成模型虽然能实现较高的插补精度，但无法提供置信区间等可靠性保证，这限制了它们的应用。现有方法的痛点在于缺乏对插补结果不确定性的量化。

核心思路：论文的核心思路是将生成模型与保形预测相结合，利用生成模型进行插补，然后使用保形预测方法为插补结果提供具有覆盖率保证的预测区间。这种方法既能保证插补的准确性，又能提供可靠的不确定性估计。

技术框架：SPLICE框架主要包含以下几个模块：1) JEPA编码器：将时间序列数据编码到低维潜在空间。2) 条件潜在桥：在潜在空间中生成候选的插补轨迹。3) 小时条件解码器：将潜在空间的插补轨迹解码回原始信号空间。4) 自适应保形推理（ACI）：利用ACI方法为插补结果生成具有覆盖率保证的预测区间。整个流程是先编码，然后在潜在空间进行插补，再解码回原始空间，最后利用ACI提供可靠性保证。

关键创新：论文的关键创新在于将自监督学习的JEPA模型与扩散模型相结合，并在扩散模型的潜在空间中进行插补。此外，使用自适应保形推理（ACI）来动态调整预测区间，以保证覆盖率，克服了静态保形预测的不足。这种结合使得模型既能实现高质量的插补，又能提供可靠的预测区间。

关键设计：JEPA编码器使用自监督学习方法进行训练，能够有效地提取时间序列数据的特征。条件潜在桥使用流匹配方法，加速了采样过程。自适应保形推理（ACI）根据实际的预测误差动态调整预测区间的大小，以保证覆盖率。损失函数包括重建损失和保形损失，用于优化模型的插补精度和覆盖率。

🖼️ 关键图片

📊 实验亮点

SPLICE在13个负荷数据集上取得了显著的性能提升，在91天间隙的12个非退化数据集中，有9个数据集的Load-only MSE最低（0.056），在所有间隙长度的32个数据集中，有18个数据集优于五个基线。同时，SPLICE实现了最佳的CRPS（0.161，比最强的竞争对手低-18.3%）。ACI能够提供93-95%的经验覆盖率，有效纠正了静态保形预测的覆盖不足问题。

🎯 应用场景

SPLICE框架可应用于电力系统负荷预测、金融时间序列分析、医疗健康数据修复等领域。该方法能够提供具有可靠性保证的时间序列插补，有助于提高决策的准确性和可靠性，尤其是在对风险敏感的应用场景中具有重要价值。未来可扩展到其他类型的时间序列数据和更复杂的应用场景。

📄 摘要（原文）

Generative models for time-series imputation achieve strong reconstruction accuracy, yet provide no finite-sample reliability guarantees, a critical limitation in power systems where imputed values inform dispatch and planning. We introduce SPLICE (Self-supervised Predictive Latent Inpainting with Conformal Envelopes), a modular framework coupling latent generative imputation with distribution-free, online-adaptive prediction intervals. A JEPA encoder maps daily load segments into a 64-dimensional latent space; a conditional latent bridge with four sampling modes generates candidate gap trajectories; an hourly-conditioned decoder maps back to signal space; and Adaptive Conformal Inference (ACI) wraps the output with coverage-guaranteed prediction bands. The flow-matching variant achieves comparable quality to DDIM in 5--10 ODE steps (5-10x speedup). On thirteen load datasets (nine proprietary, three UCI Electricity, ETTh1), SPLICE achieves the lowest mean Load-only MSE (0.056), winning 9/12 non-degenerate datasets at 91-day gaps and 18/32 across all gap lengths vs. five established baselines, and produces the best CRPS (0.161, -18.3% vs. the strongest competitor). ACI delivers 93--95% empirical coverage, correcting under-coverage failures of up to 7.5 pp observed with static conformal prediction. A pooled JEPA encoder trained on nine feeds transfers to four unseen domains, matching or exceeding per-dataset oracles with only a quick bridge fine-tuning.

SPLICE: Latent Diffusion over JEPA Embeddings for Conformal Time-Series Inpainting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理