DynamiCtrl: Rethinking the Basic Structure and the Role of Text for High-quality Human Image Animation
作者: Haoyu Zhao, Zhongang Qi, Cong Wang, Qingping Zheng, Guansong Lu, Fei Chen, Hang Xu, Zuxuan Wu
分类: cs.CV
发布日期: 2025-03-27 (更新: 2025-05-18)
备注: 16 pages, 11 figures
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出DynamiCtrl框架,提升扩散Transformer在高质量人体图像动画中的控制性和语义一致性。
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 人体图像动画 扩散Transformer 姿态控制 语义一致性 VAE 层归一化 文本引导
📋 核心要点
- 现有基于U-Net的姿态控制方法可能不适用于DiT,并且移除文本引导会导致语义信息丢失和模型性能下降。
- DynamiCtrl通过共享VAE编码器统一图像和姿态,并提出姿态自适应层归一化方法,实现有效的姿态控制。
- 实验表明,DynamiCtrl在人体图像动画任务上取得了显著提升,例如LPIPS指标达到了0.166。
📝 摘要(中文)
本文提出DynamiCtrl框架,旨在提升扩散Transformer(DiT)在姿态引导的人体图像动画中的表现。现有方法基于U-Net的姿态控制可能不适用于DiT,并且移除文本引导会导致语义损失和模型退化。DynamiCtrl使用共享VAE编码器统一处理人体图像和驱动姿态,将其映射到共同的潜在空间,保持姿态保真度,并避免使用专家姿态编码器。提出姿态自适应层归一化模型,通过视觉token将归一化的姿态特征注入到去噪过程中,实现DiT块间的无缝和可扩展姿态控制。引入“联合文本”范式,保留文本嵌入以提供全局语义上下文,通过全注意力模块对齐图像、姿态和文本特征,增强语义一致性,利用预训练知识,并实现多层次控制。实验结果表明,DynamiCtrl在基准数据集和自收集数据集上均表现出色,例如实现了最佳LPIPS为0.166,证明了其强大的角色控制和高质量合成能力。
🔬 方法详解
问题定义:现有基于扩散Transformer(DiT)的人体图像动画方法,在姿态控制方面依赖U-Net结构,可能无法充分发挥DiT的潜力。同时,为了避免文本信息干扰,一些方法直接移除文本引导,导致生成结果的语义一致性下降,并且无法有效利用预训练模型的知识。因此,需要一种能够有效利用DiT架构,同时保持语义一致性的人体图像动画方法。
核心思路:DynamiCtrl的核心思路是解耦姿态控制和语义引导,并分别进行优化。首先,使用共享VAE编码器将人体图像和驱动姿态映射到共同的潜在空间,从而实现姿态的有效控制。其次,引入“联合文本”范式,保留文本嵌入,并将其与图像和姿态特征对齐,从而保持语义一致性。
技术框架:DynamiCtrl的整体架构包含以下几个主要模块:1) 共享VAE编码器:用于将人体图像和驱动姿态编码到共同的潜在空间;2) 姿态自适应层归一化(Pose-adaptive Layer Norm):用于将姿态信息注入到DiT的各个block中;3) 联合文本模块:用于将文本嵌入与图像和姿态特征对齐,保持语义一致性;4) 扩散Transformer(DiT):作为生成模型的主干网络,负责生成最终的人体图像动画。
关键创新:DynamiCtrl的关键创新在于以下两点:1) 提出姿态自适应层归一化方法,能够有效地将姿态信息注入到DiT的各个block中,实现精细的姿态控制。与传统的U-Net结构相比,该方法更适合DiT架构,并且具有更好的可扩展性。2) 引入“联合文本”范式,保留文本嵌入,并将其与图像和姿态特征对齐,从而保持语义一致性。与直接移除文本引导的方法相比,该方法能够更好地利用预训练模型的知识,并且能够实现多层次的控制。
关键设计:在姿态自适应层归一化模块中,使用归一化的姿态特征作为条件输入,以保证训练的稳定性。在联合文本模块中,使用全注意力机制将图像和姿态特征与文本特征对齐,从而实现更好的语义一致性。损失函数方面,使用了VAE的重构损失和DiT的扩散损失,以保证生成结果的质量和多样性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DynamiCtrl在基准数据集和自收集数据集上均取得了显著的提升。例如,在某个数据集上,DynamiCtrl实现了最佳的LPIPS指标,达到了0.166,显著优于其他方法。这些结果证明了DynamiCtrl在角色控制和高质量合成方面的优势。
🎯 应用场景
DynamiCtrl在虚拟形象生成、电影特效、游戏开发等领域具有广泛的应用前景。它可以用于创建逼真的人体动画,例如根据用户的姿态生成舞蹈视频,或者根据文本描述生成特定动作的角色动画。该技术还可以用于虚拟现实和增强现实应用,例如让用户在虚拟环境中与虚拟角色进行互动。
📄 摘要(原文)
With diffusion transformer (DiT) excelling in video generation, its use in specific tasks has drawn increasing attention. However, adapting DiT for pose-guided human image animation faces two core challenges: (a) existing U-Net-based pose control methods may be suboptimal for the DiT backbone; and (b) removing text guidance, as in previous approaches, often leads to semantic loss and model degradation. To address these issues, we propose DynamiCtrl, a novel framework for human animation in video DiT architecture. Specifically, we use a shared VAE encoder for human images and driving poses, unifying them into a common latent space, maintaining pose fidelity, and eliminating the need for an expert pose encoder during video denoising. To integrate pose control into the DiT backbone effectively, we propose a novel Pose-adaptive Layer Norm model. It injects normalized pose features into the denoising process via conditioning on visual tokens, enabling seamless and scalable pose control across DiT blocks. Furthermore, to overcome the shortcomings of text removal, we introduce the "Joint-text" paradigm, which preserves the role of text embeddings to provide global semantic context. Through full-attention blocks, image and pose features are aligned with text features, enhancing semantic consistency, leveraging pretrained knowledge, and enabling multi-level control. Experiments verify the superiority of DynamiCtrl on benchmark and self-collected data (e.g., achieving the best LPIPS of 0.166), demonstrating strong character control and high-quality synthesis. The project page is available at https://gulucaptain.github.io/DynamiCtrl/.