Accelerating Diffusion-based Video Editing via Heterogeneous Caching: Beyond Full Computing at Sampled Denoising Timestep
作者: Tianyi Liu, Ye Lu, Linfeng Zhang, Chen Cai, Jianjun Gao, Yi Wang, Kim-Hui Yap, Lap-Pui Chau
分类: cs.CV, cs.AI
发布日期: 2026-03-25
备注: 10 pages, 6 figures, accepted by CVPR2026
💡 一句话要点
提出HetCache框架,加速基于扩散模型的视频编辑,显著降低计算冗余。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频编辑 扩散模型 模型加速 异构计算 注意力机制
📋 核心要点
- 扩散模型视频编辑计算成本高昂,迭代去噪过程带来巨大算力需求,阻碍实际应用。
- HetCache框架通过区分上下文和生成token,选择性缓存关键上下文信息,减少冗余计算。
- 实验表明,HetCache在保证编辑质量的前提下,显著加速推理过程,降低计算复杂度。
📝 摘要(中文)
基于扩散的视频编辑已成为高质量和灵活内容生成的重要范例。然而,尽管扩散Transformer(DiT)具有通用性和强大的建模能力,但由于迭代去噪过程,其计算成本仍然很高,对实际部署提出了挑战。现有的视频扩散加速方法主要利用去噪时间步长级别的特征重用,这减轻了去噪过程中的冗余,但忽略了DiT中的架构冗余,即许多时空token上的注意力操作被冗余地执行,对模型输出几乎没有增量贡献。本文介绍HetCache,这是一个免训练的扩散加速框架,旨在利用基于扩散的掩码视频到视频(MV2V)生成和编辑中固有的异构性。HetCache不是统一重用或随机抽样token,而是评估指定计算步骤中各种类型token之间的上下文相关性和交互强度。在空间先验的指导下,它将DiT模型中的时空token划分为上下文token和生成token,并有选择地缓存与生成token表现出最强相关性和最具代表性语义的上下文token。这种策略减少了冗余的注意力操作,同时保持了编辑一致性和保真度。实验表明,HetCache实现了显著的加速,包括在常用基础模型上的2.67倍延迟加速和FLOPs减少,而编辑质量的下降可以忽略不计。
🔬 方法详解
问题定义:现有基于扩散模型的视频编辑方法,如DiT,虽然效果出色,但计算复杂度高,主要瓶颈在于迭代去噪过程中的大量冗余计算。现有加速方法主要关注时间步上的特征重用,忽略了模型内部时空token间的冗余注意力计算,导致加速效果有限。
核心思路:HetCache的核心思想是利用视频编辑任务中token的异构性,即不同token对最终生成结果的贡献度不同。通过区分上下文token和生成token,并选择性地缓存对生成结果影响最大的上下文token,从而减少不必要的注意力计算,加速推理过程。
技术框架:HetCache是一个免训练的加速框架,主要针对基于扩散的掩码视频到视频(MV2V)生成和编辑任务。其主要流程包括:1) Token划分:根据空间先验知识,将DiT模型中的时空token划分为上下文token和生成token。2) 相关性评估:评估上下文token和生成token之间的相关性和交互强度。3) 选择性缓存:根据相关性评估结果,选择性地缓存与生成token具有最强相关性和最具代表性语义的上下文token。4) 加速推理:在推理过程中,只对缓存的上下文token进行注意力计算,从而减少计算量。
关键创新:HetCache的关键创新在于其异构缓存策略,它不是简单地重用或随机采样token,而是根据token之间的相关性进行选择性缓存。这种策略能够更有效地减少冗余计算,同时保持编辑质量。与现有方法相比,HetCache更关注模型内部的架构冗余,而非仅仅是时间步上的冗余。
关键设计:HetCache的关键设计包括:1) Token划分策略:如何有效地将时空token划分为上下文token和生成token。2) 相关性评估方法:如何准确地评估上下文token和生成token之间的相关性和交互强度。3) 缓存策略:如何选择性地缓存对生成结果影响最大的上下文token。论文中可能使用了特定的空间先验知识或注意力机制来指导这些设计。
🖼️ 关键图片
📊 实验亮点
HetCache在常用基础模型上实现了2.67倍的延迟加速和显著的FLOPs减少,同时编辑质量的下降可以忽略不计。这表明HetCache能够有效地减少冗余计算,并在保证生成质量的前提下,显著提升视频编辑的效率。
🎯 应用场景
HetCache可应用于各种需要高性能视频编辑的场景,例如在线视频创作平台、实时视频处理应用、以及资源受限的移动设备。通过降低计算成本,HetCache使得高质量的扩散模型视频编辑能够更广泛地应用,并促进相关技术在实际场景中的落地。
📄 摘要(原文)
Diffusion-based video editing has emerged as an important paradigm for high-quality and flexible content generation. However, despite their generality and strong modeling capacity, Diffusion Transformers (DiT) remain computationally expensive due to the iterative denoising process, posing challenges for practical deployment. Existing video diffusion acceleration methods primarily exploit denoising timestep-level feature reuse, which mitigates the redundancy in denoising process, but overlooks the architectural redundancy within the DiT that many attention operations over spatio-temporal tokens are redundantly executed, offering little to no incremental contribution to the model output. This work introduces HetCache, a training-free diffusion acceleration framework designed to exploit the inherent heterogeneity in diffusion-based masked video-to-video (MV2V) generation and editing. Instead of uniformly reuse or randomly sampling tokens, HetCache assesses the contextual relevance and interaction strength among various types of tokens in designated computing steps. Guided by spatial priors, it divides the spatial-temporal tokens in DiT model into context and generative tokens, and selectively caches the context tokens that exhibit the strongest correlation and most representative semantics with generative ones. This strategy reduces redundant attention operations while maintaining editing consistency and fidelity. Experiments show that HetCache achieves a noticeable acceleration, including a 2.67$\times$ latency speedup and FLOPs reduction over commonly used foundation models, with negligible degradation in editing quality.