SDFlow: Similarity-Driven Flow Matching for Time Series Generation
作者: Wei Li, Shibo Feng, Pengcheng Wu, Min Wu, Peilin Zhao
分类: cs.AI
发布日期: 2026-05-07
💡 一句话要点
提出SDFlow框架:利用相似度驱动的流匹配技术实现高效长序列时间序列生成
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 时间序列生成 流匹配 向量量化 非自回归生成 深度学习 生成式模型
📋 核心要点
- 现有基于自回归的时间序列生成模型存在严重的暴露偏差问题,导致长序列生成时误差累积,模型性能随序列长度增加而显著退化。
- SDFlow采用非自回归的流匹配框架,在冻结的VQ潜在空间中通过全局传输映射进行并行生成,从根本上规避了序列化预测的误差累积。
- 实验证明SDFlow在长序列生成任务中实现了SOTA性能,在提升生成质量的同时,大幅降低了推理延迟,展现了极高的计算效率。
📝 摘要(中文)
基于向量量化(VQ)与自回归(AR)标记建模的时间序列生成是当前主流范式,但其受限于暴露偏差(exposure bias),即推理过程中误差随序列长度累积,导致长序列生成质量显著下降。为此,本文提出了SDFlow(相似度驱动流匹配),这是一种在冻结的VQ潜在空间中运行的非自回归框架,通过流匹配实现并行序列生成。该研究解决了三个核心挑战:1. 通过全局传输映射替代逐步标记预测,消除了暴露偏差;2. 利用低秩流形分解及学习到的锚点先验,缓解了VQ标记空间的高维性问题;3. 在变分流匹配框架中引入码本索引的分类后验,将离散监督融入连续传输动力学。实验表明,SDFlow在判别分数和Context-FID指标上均达到SOTA水平,特别是在长序列生成任务中表现优异,且推理速度远超自回归基线。
🔬 方法详解
问题定义:论文旨在解决时间序列生成中自回归模型因“暴露偏差”导致的误差累积问题。在长序列生成场景下,每一步的预测误差会传递至后续步骤,导致生成质量随序列长度增加而迅速下降。
核心思路:引入非自回归生成范式,将时间序列生成建模为从噪声分布到目标分布的连续流匹配过程。通过在冻结的VQ潜在空间中进行全局传输,实现序列的并行生成,从而彻底摆脱对历史预测的依赖。
技术框架:整体架构基于流匹配(Flow Matching)理论。首先利用预训练的VQ模型将时间序列映射至离散潜在空间;随后,通过低秩流形分解技术降低潜在空间的维度;最后,利用变分流匹配框架学习从先验分布到目标码本索引分布的传输路径。
关键创新:提出了相似度驱动的流匹配机制,通过学习潜在空间中的锚点先验,有效地约束了高维离散空间的生成路径,并将离散的码本索引通过分类后验概率平滑地嵌入到连续的流匹配动力学中。
关键设计:采用低秩流形分解来处理VQ标记的高维特性;设计了基于变分推断的损失函数,将离散监督信号转化为连续的概率流,确保了生成过程的稳定性和对离散码本的精确映射。
🖼️ 关键图片
📊 实验亮点
SDFlow在多项基准测试中表现卓越,显著提升了判别分数(Discriminative Score)并大幅降低了Context-FID指标。相比于传统的自回归模型,SDFlow在长序列生成任务中展现出更强的稳定性,且推理速度实现了数量级的提升,在保持高保真度的同时实现了计算效率的最优平衡。
🎯 应用场景
SDFlow适用于金融市场预测、气象数据模拟、工业传感器信号生成及医疗健康监测等需要长序列、高保真度时间序列数据的领域。其非自回归特性使其在实时监控系统和大规模数据增强任务中具有显著的计算效率优势,能够有效支持复杂动态系统的建模与分析。
📄 摘要(原文)
Vector quantization (VQ) with autoregressive (AR) token modeling is a widely adopted and highly competitive paradigm for time-series generation. However, such models are fundamentally limited by exposure bias: during inference, errors can accumulate across sequential predictions, leading to pronounced quality degradation in long-horizon generation. To address this, we propose SDFlow ($\textbf{S}$imilarity-$\textbf{D}$riven $\textbf{Flow}$ Matching), a non-autoregressive framework that operates entirely in the frozen VQ latent space and enables parallel sequence generation via flow matching. We tackle three key challenges in making this transition: (1) eliminating exposure bias by replacing step-wise token prediction with a global transport map; (2) mitigating the high-dimensionality of VQ token spaces via a low-rank manifold decomposition with a learned anchor prior over the latent manifold; and (3) incorporating discrete supervision into continuous transport dynamics by introducing a categorical posterior over codebook indices within a variational flow-matching formulation. Extensive experiments show that SDFlow achieves state-of-the-art performance, improving Discriminative Score and substantially reducing Context-FID, particularly for challenging long-sequence generation. Moreover, SDFlow provides significant inference speedups over autoregressive baselines, offering both high fidelity and computational efficiency. Code is available at https://anonymous.4open.science/r/SDFlow-D6F3/