ACD: Direct Conditional Control for Video Diffusion Models via Attention Supervision

📄 arXiv: 2512.21268v1 📥 PDF

作者: Weiqi Li, Zehao Zhang, Liang Lin, Guangrun Wang

分类: cs.CV

发布日期: 2025-12-24


💡 一句话要点

ACD:通过注意力监督实现视频扩散模型中的直接条件控制

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 视频生成 扩散模型 条件控制 注意力机制 ControlNet

📋 核心要点

  1. 现有视频生成方法在条件控制方面存在不足,难以精确对齐条件信号,导致可控性受限。
  2. ACD通过注意力监督,直接将模型的注意力图与外部控制信号对齐,从而实现更强的条件控制能力。
  3. 实验表明,ACD在保持视频连贯性和视觉质量的同时,显著提升了与条件输入的对齐程度。

📝 摘要(中文)

可控性是视频合成中的一项基本要求,其中与条件信号的精确对齐至关重要。现有的无分类器引导方法通常通过对数据和条件的联合分布进行建模来间接实现条件控制,这通常导致对指定条件的有限可控性。基于分类器的引导通过外部分类器强制执行条件,但模型可能会利用这种机制来提高分类器分数,而没有真正满足预期的条件,从而导致对抗性伪影和有限的有效可控性。在本文中,我们提出了注意力条件扩散(ACD),这是一种通过注意力监督在视频扩散模型中实现直接条件控制的新框架。通过将模型的注意力图与外部控制信号对齐,ACD实现了更好的可控性。为了支持这一点,我们引入了一种稀疏的3D感知对象布局作为一种有效的条件信号,以及一个专用的布局ControlNet和一个用于可扩展布局集成的自动注释管道。在基准视频生成数据集上的大量实验表明,ACD在保持时间连贯性和视觉保真度的同时,提供了与条件输入的卓越对齐,从而为条件视频合成建立了一种有效的范例。

🔬 方法详解

问题定义:现有视频扩散模型在条件控制方面存在挑战。无分类器引导方法可控性有限,而基于分类器的引导容易产生对抗性伪影,无法真正满足条件需求。因此,需要一种更直接、更有效的方法来控制视频生成过程。

核心思路:ACD的核心思想是通过注意力监督,直接将视频扩散模型的注意力机制与外部条件信号对齐。通过这种方式,模型能够更准确地理解和响应条件输入,从而提高生成视频的可控性。这种方法避免了间接建模和外部分类器带来的问题。

技术框架:ACD框架主要包含以下几个部分:1) 稀疏3D感知对象布局:作为条件信号,提供视频中对象的空间布局信息。2) 布局ControlNet:用于处理布局信息,并将其融入到扩散模型的生成过程中。3) 注意力监督:通过损失函数,促使模型的注意力图与布局信息对齐。4) 自动标注管道:用于生成大规模的布局标注数据,支持模型的训练。

关键创新:ACD的关键创新在于直接利用注意力机制进行条件控制。与以往方法不同,ACD不依赖于间接的联合分布建模或外部分类器,而是直接干预模型的内部注意力过程,从而实现更精确的条件控制。此外,稀疏3D感知对象布局和自动标注管道也为ACD的有效实施提供了支持。

关键设计:ACD的关键设计包括:1) 注意力监督损失函数:用于衡量模型注意力图与布局信息之间的差异,并引导模型学习对齐。2) 布局ControlNet的结构:专门设计用于处理布局信息,并将其有效地融入到扩散模型的生成过程中。3) 稀疏3D感知对象布局的表示方式:需要能够准确地描述对象的空间布局,同时保持计算效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ACD在多个视频生成数据集上取得了显著的性能提升。与现有方法相比,ACD能够生成与条件输入更精确对齐的视频,同时保持了良好的时间连贯性和视觉质量。具体指标提升数据未知,但论文强调了ACD在条件对齐方面的优势。

🎯 应用场景

ACD技术可应用于各种视频生成和编辑场景,例如:根据用户指定的对象布局生成视频,根据文本描述生成符合场景的视频,以及对现有视频进行编辑和修改。该技术在游戏开发、电影制作、广告设计等领域具有广泛的应用前景,能够显著提升视频内容创作的效率和质量。

📄 摘要(原文)

Controllability is a fundamental requirement in video synthesis, where accurate alignment with conditioning signals is essential. Existing classifier-free guidance methods typically achieve conditioning indirectly by modeling the joint distribution of data and conditions, which often results in limited controllability over the specified conditions. Classifier-based guidance enforces conditions through an external classifier, but the model may exploit this mechanism to raise the classifier score without genuinely satisfying the intended condition, resulting in adversarial artifacts and limited effective controllability. In this paper, we propose Attention-Conditional Diffusion (ACD), a novel framework for direct conditional control in video diffusion models via attention supervision. By aligning the model's attention maps with external control signals, ACD achieves better controllability. To support this, we introduce a sparse 3D-aware object layout as an efficient conditioning signal, along with a dedicated Layout ControlNet and an automated annotation pipeline for scalable layout integration. Extensive experiments on benchmark video generation datasets demonstrate that ACD delivers superior alignment with conditioning inputs while preserving temporal coherence and visual fidelity, establishing an effective paradigm for conditional video synthesis.