When to Lock Attention: Training-Free KV Control in Video Diffusion
作者: Tianyi Zeng, Jincheng Gao, Tianyi Wang, Zijie Meng, Miao Zhang, Jun Yin, Haoyuan Sun, Junfeng Jiao, Christian Claudel, Junbo Tan, Xueqian Wang
分类: cs.CV, cs.AI, cs.ET, eess.IV
发布日期: 2026-03-10
备注: 18 pages, 9 figures, 3 tables
💡 一句话要点
提出KV-Lock,一种免训练的视频扩散模型KV控制方法,提升前景质量并保持背景一致性。
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)
关键词: 视频扩散模型 视频编辑 背景一致性 前景生成 免训练 KV控制 幻觉检测
📋 核心要点
- 视频编辑中,如何在增强前景质量的同时保持背景一致性是一个核心难题,现有方法难以兼顾。
- KV-Lock通过扩散幻觉检测动态调整背景KV锁定强度和CFG尺度,从而在生成过程中平衡背景一致性和前景多样性。
- KV-Lock是免训练的即插即用模块,实验表明其在视频编辑任务中能有效提升前景质量并保持背景高保真度。
📝 摘要(中文)
本文提出KV-Lock,一个专为基于DiT的视频扩散模型设计的免训练框架,旨在解决视频编辑中保持背景一致性并提升前景质量这一核心挑战。该方法的核心思想是,幻觉度量(去噪预测的方差)直接量化了生成的多样性,这与分类器无关引导(CFG)尺度内在相关。KV-Lock利用扩散幻觉检测来动态调度两个关键组件:缓存的背景键值(KV)与新生成的KV之间的融合比例,以及CFG尺度。当检测到幻觉风险时,KV-Lock加强背景KV锁定,同时放大条件引导以生成前景,从而减轻伪影并提高生成保真度。KV-Lock作为一个免训练的即插即用模块,可以轻松集成到任何预训练的基于DiT的模型中。大量实验验证了该方法在各种视频编辑任务中,在提高前景质量和保持高背景保真度方面优于现有方法。
🔬 方法详解
问题定义:视频编辑任务中,如何在修改前景的同时保持背景的稳定性和一致性是一个关键问题。简单地注入完整图像信息容易引入背景伪影,而强制锁定背景又会限制模型生成前景的能力。现有的方法难以在背景一致性和前景生成质量之间取得平衡。
核心思路:论文的核心思路是利用扩散模型生成过程中的“幻觉”现象来指导背景的锁定和前景的生成。作者观察到,去噪预测的方差(即幻觉度量)与生成的多样性相关,并且与分类器无关引导(CFG)尺度存在内在联系。因此,可以通过检测幻觉风险来动态调整背景KV的锁定强度和CFG尺度,从而在需要时加强背景锁定,并同时放大条件引导以生成前景。
技术框架:KV-Lock框架主要包含以下几个步骤:1. 使用预训练的DiT模型进行视频扩散过程。2. 在每个扩散步骤中,计算去噪预测的方差,作为幻觉度量。3. 基于幻觉度量,动态调整两个关键参数:背景KV的融合比例和CFG尺度。4. 根据调整后的参数,融合缓存的背景KV和新生成的KV,并使用调整后的CFG尺度进行前景生成。
关键创新:KV-Lock的关键创新在于提出了一种免训练的动态KV控制方法,它不需要额外的训练数据或微调过程,可以直接应用于预训练的DiT模型。通过利用扩散过程中的幻觉信息,KV-Lock能够自适应地调整背景锁定和前景生成策略,从而在背景一致性和前景质量之间取得更好的平衡。
关键设计:KV-Lock的关键设计包括:1. 使用去噪预测的方差作为幻觉度量,该度量能够有效地反映生成过程中的不确定性和多样性。2. 设计了动态调整KV融合比例和CFG尺度的策略,该策略能够根据幻觉风险自适应地调整背景锁定和前景生成强度。3. KV-Lock作为一个即插即用模块,可以方便地集成到各种基于DiT的视频扩散模型中,而无需修改模型的结构或参数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,KV-Lock在多个视频编辑任务上均取得了显著的性能提升。例如,在对象移除任务中,KV-Lock能够有效地去除视频中的指定对象,同时保持背景的稳定性和一致性,其性能优于现有的背景锁定方法。此外,KV-Lock还能够提升视频生成的分辨率和质量,并减少伪影的产生。
🎯 应用场景
KV-Lock可广泛应用于视频编辑、视频修复、视频风格迁移等领域。例如,可以用于去除视频中的特定物体,同时保持背景的稳定;也可以用于增强视频的分辨率,同时避免引入伪影。该研究具有重要的实际价值,能够提升视频编辑的效率和质量,并为未来的视频生成和编辑技术提供新的思路。
📄 摘要(原文)
Maintaining background consistency while enhancing foreground quality remains a core challenge in video editing. Injecting full-image information often leads to background artifacts, whereas rigid background locking severely constrains the model's capacity for foreground generation. To address this issue, we propose KV-Lock, a training-free framework tailored for DiT-based video diffusion models. Our core insight is that the hallucination metric (variance of denoising prediction) directly quantifies generation diversity, which is inherently linked to the classifier-free guidance (CFG) scale. Building upon this, KV-Lock leverages diffusion hallucination detection to dynamically schedule two key components: the fusion ratio between cached background key-values (KVs) and newly generated KVs, and the CFG scale. When hallucination risk is detected, KV-Lock strengthens background KV locking and simultaneously amplifies conditional guidance for foreground generation, thereby mitigating artifacts and improving generation fidelity. As a training-free, plug-and-play module, KV-Lock can be easily integrated into any pre-trained DiT-based models. Extensive experiments validate that our method outperforms existing approaches in improved foreground quality with high background fidelity across various video editing tasks.