FIS-DiT: Breaking the Few-Step Video Inference Barrier via Training-Free Frame Interleaved Sparsity
作者: Jian Tang, Jiawei Fan, Qingbin Liu, Zheng Wei
分类: cs.CV, cs.LG
发布日期: 2026-05-12
💡 一句话要点
提出FIS-DiT,通过无训练帧交错稀疏性突破视频扩散模型推理速度瓶颈。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)
关键词: 视频扩散模型 推理加速 帧交错稀疏性 无训练 实时视频生成
📋 核心要点
- 现有视频扩散模型加速方法在少数步推理时性能受限,因为时间状态稀疏导致特征重用困难。
- FIS-DiT通过在帧维度引入稀疏性,在模型层级中操作帧子集,刷新所有潜在位置,无需全尺寸计算。
- 实验表明,FIS-DiT在加速2.11-2.41倍的同时,在VBench-Q和CLIP指标上性能退化可忽略不计。
📝 摘要(中文)
视频扩散Transformer (DiT) 的整体推理延迟可以通过模型蒸馏显著降低,但每步推理延迟仍然是一个关键瓶颈。现有的加速范式主要利用去噪轨迹中的冗余;然而,我们发现这些逐步骤策略在少数步骤情况下会遇到收益递减的限制。在这种情况下,时间状态的稀缺性阻碍了有效的特征重用或预测建模,从而为进一步加速设置了巨大的障碍。为了克服这个问题,我们提出了帧交错稀疏性DiT (FIS-DiT),这是一个无需训练且与算子无关的框架,它将优化重点从时间轨迹转移到潜在帧维度。我们的方法受到此维度内固有二元性的驱动:帧方向稀疏性的存在允许减少计算,以及结构一致性,其中每个帧位置对于全局时空上下文仍然同等重要。利用这种洞察力,我们实施帧交错稀疏性 (FIS) 作为一种执行策略,该策略在模型层次结构中操作帧子集,刷新所有潜在位置,而无需全尺寸块计算。在Wan 2.2和HunyuanVideo 1.5上的经验评估表明,FIS-DiT在VBench-Q和CLIP指标上始终如一地实现了2.11--2.41倍的加速,且退化可忽略不计,为实现实时高清视频生成提供了一条可扩展且稳健的途径。
🔬 方法详解
问题定义:现有视频扩散模型,特别是DiT,在推理加速方面面临挑战。尽管可以通过模型蒸馏降低整体延迟,但每步推理的延迟仍然很高。现有的加速方法主要关注利用去噪轨迹中的冗余,但在少数步推理的情况下,由于时间状态的稀疏性,特征重用和预测建模变得困难,导致加速效果不佳。
核心思路:FIS-DiT的核心思路是将优化重点从时间轨迹转移到潜在帧维度。该方法观察到帧维度存在固有的二元性:一方面,帧方向存在稀疏性,允许减少计算;另一方面,每个帧位置对于全局时空上下文都至关重要。因此,通过在帧维度上引入稀疏性,可以在不损失关键信息的情况下减少计算量。
技术框架:FIS-DiT框架的核心是帧交错稀疏性(FIS)执行策略。该策略在模型层次结构中操作帧子集,而不是对所有帧进行全尺寸块计算。具体来说,FIS策略会选择性地刷新潜在空间中的帧位置,确保所有位置都能被更新,同时减少计算负担。该框架是训练无关的,并且与底层算子无关,可以灵活地应用于不同的DiT模型。
关键创新:FIS-DiT的关键创新在于其在帧维度上引入稀疏性的思想,并设计了帧交错稀疏性(FIS)执行策略。与现有方法主要关注时间维度上的冗余利用不同,FIS-DiT通过挖掘帧维度上的稀疏性,实现了在少数步推理情况下的有效加速。此外,FIS-DiT无需训练,可以直接应用于现有的DiT模型,具有很强的通用性。
关键设计:FIS-DiT的关键设计在于帧交错稀疏性(FIS)执行策略的具体实现。具体实现细节未知,论文中可能没有详细描述参数设置、损失函数或网络结构等技术细节,但核心思想是在模型层级中选择性地处理帧子集,以减少计算量,同时保证所有帧位置都能被更新。
🖼️ 关键图片
📊 实验亮点
FIS-DiT在Wan 2.2和HunyuanVideo 1.5数据集上进行了评估,实验结果表明,该方法在VBench-Q和CLIP指标上实现了2.11-2.41倍的加速,同时性能退化可忽略不计。这表明FIS-DiT能够在显著提高视频生成速度的同时,保持较高的视频质量,具有很强的实用价值。
🎯 应用场景
FIS-DiT具有广泛的应用前景,尤其是在需要实时或近实时高清视频生成的场景中。例如,它可以应用于视频会议、游戏直播、虚拟现实、自动驾驶等领域,提高视频生成的速度和效率,从而改善用户体验。此外,该方法还可以用于视频编辑、特效制作等专业领域,降低视频制作的成本和时间。
📄 摘要(原文)
While the overall inference latency of Video Diffusion Transformers (DiTs) can be substantially reduced through model distillation, per-step inference latency remains a critical bottleneck. Existing acceleration paradigms primarily exploit redundancy across the denoising trajectory; however, we identify a limitation where these step-wise strategies encounter diminishing returns in few-step regimes. In such scenarios, the scarcity of temporal states prevents effective feature reuse or predictive modeling, creating a formidable barrier to further acceleration. To overcome this, we propose Frame Interleaved Sparsity DiT (FIS-DiT), a training-free and operator-agnostic framework that shifts the optimization focus from the temporal trajectory to the latent frame dimension. Our approach is motivated by an intrinsic duality within this dimension: the existence of frame-wise sparsity that permits reduced computation, coupled with a structural consistency where each frame position remains equally vital to the global spatiotemporal context. Leveraging this insight, we implement Frame Interleaved Sparsity (FIS) as an execution strategy that manipulates frame subsets across the model hierarchy, refreshing all latent positions without requiring full-scale block computation. Empirical evaluations on Wan 2.2 and HunyuanVideo 1.5 demonstrate that FIS-DiT consistently achieves 2.11--2.41$\times$ speedup with negligible degradation across VBench-Q and CLIP metrics, providing a scalable and robust pathway toward real-time high-definition video generation.