Temporal Aware Pruning for Efficient Diffusion-based Video Generation
作者: Sheng Li, Yang Sui, Junhao Ran, Bo Yuan, Yue Dai, Xulong Tang
分类: cs.CV, cs.AI
发布日期: 2026-05-18
💡 一句话要点
提出TAPE:一种时序感知剪枝方法,用于高效扩散视频生成。
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 视频生成 扩散模型 Token剪枝 时间感知 模型加速
📋 核心要点
- 现有基于注意力的视频扩散模型计算量大,且逐帧剪枝忽略了视频帧间的时间连贯性,导致生成质量下降。
- TAPE通过时间平滑对齐token重要性,抑制抖动;token重选对齐层语义焦点,避免误差累积;步长预算调度平衡速度与质量。
- 实验表明,TAPE在显著加速的同时,保持了高视觉保真度,优于现有token剪枝方法。
📝 摘要(中文)
视频扩散模型最近实现了基于ViT架构的高质量视频生成,但由于生成需要在长时空序列上进行注意力计算,因此计算量仍然很大。Token剪枝已被证明对ViT和VLMs有效。然而,大多数先前的剪枝方法都是基于注意力的,并且逐帧操作,无法确保视频生成任务中重要的跨帧时间连贯性。实际上,简单地采用仅基于注意力的剪枝会导致明显的退化,因为背景一致性变差、闪烁和图像质量降低。为了解决这个问题,我们提出TAPE,一种用于高效扩散视频生成的无训练时序感知剪枝方法。TAPE (i) 应用时间平滑来对齐相邻帧之间的token重要性并抑制选择抖动;(ii) 在选定的层中执行token重新选择,以使token剪枝与层不同的语义焦点对齐,并避免特定区域中的误差累积;它还 (iii) 采用时间步长级别的预算调度,在早期噪声步骤中积极剪枝,并在保真度至关重要的细化过程中放松剪枝。实验结果表明,TAPE在保持高视觉保真度的同时,提供了显著的加速,优于先前的token减少方法。
🔬 方法详解
问题定义:论文旨在解决视频扩散模型计算量大的问题,特别是在基于ViT的架构中,由于需要在长时空序列上进行注意力计算,计算成本很高。现有的token剪枝方法主要基于注意力机制,并且是逐帧进行的,忽略了视频帧之间的时间连贯性,导致生成视频的质量下降,例如出现背景不一致、闪烁等问题。
核心思路:论文的核心思路是在token剪枝过程中引入时间感知,以保持视频帧之间的时间连贯性。通过时间平滑来对齐相邻帧之间的token重要性,抑制选择抖动;通过token重选来对齐token剪枝与层不同的语义焦点,避免特定区域中的误差累积;通过时间步长级别的预算调度,在早期噪声步骤中积极剪枝,并在保真度至关重要的细化过程中放松剪枝。
技术框架:TAPE方法主要包含三个模块:(1) 时间平滑模块,用于对齐相邻帧之间的token重要性;(2) token重选模块,用于在选定的层中重新选择token,以对齐token剪枝与层不同的语义焦点;(3) 时间步长级别的预算调度模块,用于在不同的时间步长上调整剪枝的比例。整体流程是在视频扩散模型的训练过程中,在每个时间步长上,首先进行时间平滑,然后进行token重选,最后根据预算调度进行token剪枝。
关键创新:论文的关键创新在于引入了时间感知的token剪枝方法,通过时间平滑和token重选来保持视频帧之间的时间连贯性,从而避免了现有方法中出现的背景不一致、闪烁等问题。此外,时间步长级别的预算调度也是一个创新点,它允许在不同的时间步长上调整剪枝的比例,从而在速度和质量之间取得更好的平衡。
关键设计:时间平滑模块采用滑动平均的方法,对相邻帧的token重要性进行平滑处理。Token重选模块采用基于语义相似度的重选策略,选择与当前层语义焦点更相关的token。时间步长级别的预算调度模块采用线性插值的方法,根据时间步长动态调整剪枝的比例。具体的参数设置和损失函数等细节在论文中没有详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,TAPE方法在保持高视觉保真度的同时,提供了显著的加速,优于先前的token减少方法。具体的性能数据和对比基线在摘要中没有给出,属于未知信息。但论文强调了TAPE在速度和质量上的平衡优于现有方法。
🎯 应用场景
该研究成果可应用于各种视频生成领域,例如游戏、电影制作、广告等。通过降低视频生成的计算成本,可以加速内容创作流程,并降低硬件需求。此外,该方法还可以应用于视频编辑、视频修复等领域,提高视频处理的效率和质量。未来,该方法有望推动视频生成技术在更多领域的应用。
📄 摘要(原文)
Video diffusion models have recently enabled high-quality video generation with ViT-based architectures, but remain computationally intensive because generation requires attention computation over long spatiotemporal sequences. Token pruning has proven effective for ViTs and VLMs. However, most prior pruning methods are attention-based and operate per frame, failing to ensure the vital temporal coherence across frames in video generation tasks. In practice, naively adopting attention-only pruning causes noticeable degradation due to worsened background consistency, flickering, and reduced image quality. To address this, we propose TAPE, a training-free Temporal Aware Pruning for Efficient diffusion-based video generation. TAPE (i) applies temporal smoothing to align token-importance across adjacent frames and suppress selection jitter; and (ii) performs token reselection in selected layers to align token pruning with layers' diverse semantic focus and avoid error accumulation in specific areas; it also (iii) adopt a timestep-level budget scheduling that prunes aggressively at early noisy steps and relaxes pruning during fidelity-critical refinement. The experimental results show that TAPE delivers significant speedups while preserving high visual fidelity, outperforming prior token reduction approaches.