MoDiT: Learning Highly Consistent 3D Motion Coefficients with Diffusion Transformer for Talking Head Generation

📄 arXiv: 2507.05092v1 📥 PDF

作者: Yucheng Wang, Dan Xu

分类: cs.CV

发布日期: 2025-07-07


💡 一句话要点

MoDiT:利用扩散Transformer学习一致性3D运动系数,用于生成逼真说话人头部

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 说话人头部生成 3D形变模型 扩散模型 Transformer 时间一致性 身份保持 眨眼建模 音频驱动

📋 核心要点

  1. 现有说话人头部生成方法在时间一致性、身份保持和自然眨眼建模方面存在不足,导致生成结果存在抖动、身份漂移和不自然的眨眼。
  2. MoDiT框架结合3DMM和扩散Transformer,通过分层去噪、注意力机制改进和3DMM约束,提升生成视频的时间一致性、身份保持和眨眼真实性。
  3. 论文提出的方法在说话人头部生成任务上取得了显著的改进,尤其在唇部同步、身份保持和眨眼自然度方面。

📝 摘要(中文)

本文提出了一种名为MoDiT的新框架,用于解决音频驱动的说话人头部生成问题,该问题在虚拟助手、视频游戏和电影等应用中至关重要,尤其需要自然的嘴唇运动。现有方法,如基于GAN或UNet的扩散模型,在时间一致性、身份保持和眨眼行为建模方面存在局限性。MoDiT结合了3D形变模型(3DMM)和基于扩散的Transformer,通过分层去噪策略、修正的时间注意力机制、偏置的自/交叉注意力机制来细化唇部同步并增强面部连贯性,从而减轻时间抖动。同时,利用3DMM系数提供显式空间约束,结合Wav2Lip结果,确保准确的3D光流预测和唇部同步,从而保持身份一致性。此外,还改进了眨眼策略,以模拟更自然和流畅的眨眼行为。

🔬 方法详解

问题定义:现有音频驱动的说话人头部生成方法,特别是基于GAN和UNet扩散模型的方法,在生成高质量、连贯的说话人头部视频时面临三个主要问题:时间抖动(帧间不一致)、身份漂移(面部身份信息丢失)以及不自然的眨眼行为。这些问题源于缺乏强时间约束、3D信息提取不足以及对真实眨眼动态的建模不足。

核心思路:MoDiT的核心思路是将3D形变模型(3DMM)的显式3D信息融入到基于扩散的Transformer模型中,从而在生成过程中提供更强的空间约束和时间一致性。通过3DMM系数,模型可以更好地理解和控制面部形状和运动,从而减少身份漂移。同时,改进的注意力机制和分层去噪策略有助于提高时间一致性,而专门设计的眨眼策略则可以生成更自然的眨眼行为。

技术框架:MoDiT框架主要包含以下几个关键模块:1) 3DMM系数提取模块,用于从输入音频中提取3DMM系数,作为模型的输入;2) 扩散Transformer模块,该模块采用分层去噪策略,逐步细化生成结果;3) 时间注意力机制,用于增强帧间的时间一致性;4) 偏置的自/交叉注意力机制,用于更好地融合音频和视频信息;5) 眨眼策略模块,用于生成自然的眨眼行为。整体流程是:首先,从音频中提取3DMM系数,然后将其输入到扩散Transformer模块中进行逐步去噪,最终生成说话人头部视频。

关键创新:MoDiT的关键创新在于将3DMM的显式3D信息与扩散Transformer的生成能力相结合。与现有方法相比,MoDiT能够更好地利用3D信息来约束生成过程,从而减少身份漂移和提高时间一致性。此外,改进的注意力机制和眨眼策略也显著提升了生成视频的质量和真实感。

关键设计:在技术细节方面,MoDiT采用了分层去噪策略,从粗到细地逐步生成说话人头部视频。时间注意力机制通过引入时间上下文信息来增强帧间一致性。偏置的自/交叉注意力机制允许模型根据音频和视频信息的相对重要性进行加权。眨眼策略则通过建模眨眼的速度和持续时间来生成更自然的眨眼行为。具体的损失函数和网络结构细节在论文中进行了详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出的MoDiT框架在说话人头部生成任务上取得了显著的改进。具体性能数据和对比基线在摘要中未提及,但强调了在唇部同步、身份保持和眨眼自然度方面的提升。通过结合3DMM和扩散Transformer,MoDiT能够生成更逼真、更连贯的说话人头部视频。

🎯 应用场景

MoDiT在多个领域具有广泛的应用前景,包括虚拟助手、视频游戏、电影制作、在线教育和个性化内容生成。它可以用于创建逼真的虚拟人物,提升用户体验,降低内容制作成本,并为用户提供更加个性化的服务。未来,该技术有望进一步发展,实现更高质量、更自然、更可控的说话人头部生成。

📄 摘要(原文)

Audio-driven talking head generation is critical for applications such as virtual assistants, video games, and films, where natural lip movements are essential. Despite progress in this field, challenges remain in producing both consistent and realistic facial animations. Existing methods, often based on GANs or UNet-based diffusion models, face three major limitations: (i) temporal jittering caused by weak temporal constraints, resulting in frame inconsistencies; (ii) identity drift due to insufficient 3D information extraction, leading to poor preservation of facial identity; and (iii) unnatural blinking behavior due to inadequate modeling of realistic blink dynamics. To address these issues, we propose MoDiT, a novel framework that combines the 3D Morphable Model (3DMM) with a Diffusion-based Transformer. Our contributions include: (i) A hierarchical denoising strategy with revised temporal attention and biased self/cross-attention mechanisms, enabling the model to refine lip synchronization and progressively enhance full-face coherence, effectively mitigating temporal jittering. (ii) The integration of 3DMM coefficients to provide explicit spatial constraints, ensuring accurate 3D-informed optical flow prediction and improved lip synchronization using Wav2Lip results, thereby preserving identity consistency. (iii) A refined blinking strategy to model natural eye movements, with smoother and more realistic blinking behaviors.