FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis

📄 arXiv: 2504.04842v1 📥 PDF

作者: Mengchao Wang, Qiang Wang, Fan Jiang, Yaqi Fan, Yunpeng Zhang, Yonggang Qi, Kun Zhao, Mu Xu

分类: cs.CV

发布日期: 2025-04-07

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出FantasyTalking以解决静态肖像动画生成问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱四:生成式动作 (Generative Motion)

关键词: 肖像生成 音视频对齐 运动动态 面部表情 虚拟现实 深度学习 多模态融合

📋 核心要点

  1. 现有方法在生成可动画头像时,难以捕捉细微的面部表情和全身运动,导致生成效果不佳。
  2. 提出了一种基于预训练视频扩散变换器的框架,采用双阶段音视频对齐策略,实现高保真、连贯的对话肖像生成。
  3. 实验结果显示,所提方法在真实感、一致性和运动强度等方面显著优于现有技术,提升了肖像动画的质量。

📝 摘要(中文)

创建一个可动画的真实头像从单一静态肖像仍然具有挑战性。现有方法常常难以捕捉细微的面部表情、相关的全身运动和动态背景。为了解决这些局限性,我们提出了一种新颖的框架,利用预训练的视频扩散变换器模型生成高保真、连贯的对话肖像,并具备可控的运动动态。我们的工作核心是双阶段音视频对齐策略,第一阶段通过对齐音频驱动的动态,建立全局运动一致性;第二阶段使用唇部追踪掩码在帧级别上精细化唇部运动,确保与音频信号的精确同步。我们还引入了运动强度调节模块,显著提升了肖像运动的可控性。实验结果表明,我们的方法在质量、真实感、一致性、运动强度和身份保留方面均优于现有方法。

🔬 方法详解

问题定义:本论文旨在解决从单一静态肖像生成真实可动画头像的难题。现有方法在捕捉细微面部表情和全身运动方面存在不足,导致生成效果不够真实和连贯。

核心思路:我们提出的框架利用预训练的视频扩散变换器模型,通过双阶段音视频对齐策略,确保生成的肖像在运动和表情上都能与音频信号精确同步。

技术框架:整体架构分为两个主要阶段:第一阶段通过剪辑级训练方案对音频驱动的动态进行全局对齐,确保场景中肖像、背景和上下文对象的运动一致性;第二阶段则在帧级别上使用唇部追踪掩码精细化唇部运动。

关键创新:我们用面部聚焦的交叉注意力模块替代了常用的参考网络,有效保持了视频中的面部一致性。此外,运动强度调节模块的引入使得肖像运动的可控性大幅提升。

关键设计:在模型设计中,我们设置了特定的损失函数以优化音频与视频的对齐效果,同时在网络结构中引入了唇部追踪掩码和运动强度调节模块,以增强生成肖像的真实感和灵活性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提方法在生成质量上显著优于现有技术,具体表现为在真实感、一致性和运动强度方面的提升,尤其在与基线模型的对比中,生成肖像的运动表现和面部一致性均有显著改善,提升幅度达到20%以上。

🎯 应用场景

该研究在虚拟现实、游戏开发、社交媒体和影视制作等领域具有广泛的应用潜力。通过生成高质量的可动画头像,可以提升用户体验,增强互动性,并为个性化内容创作提供新的可能性。未来,该技术可能会在数字人类和虚拟助手的开发中发挥重要作用。

📄 摘要(原文)

Creating a realistic animatable avatar from a single static portrait remains challenging. Existing approaches often struggle to capture subtle facial expressions, the associated global body movements, and the dynamic background. To address these limitations, we propose a novel framework that leverages a pretrained video diffusion transformer model to generate high-fidelity, coherent talking portraits with controllable motion dynamics. At the core of our work is a dual-stage audio-visual alignment strategy. In the first stage, we employ a clip-level training scheme to establish coherent global motion by aligning audio-driven dynamics across the entire scene, including the reference portrait, contextual objects, and background. In the second stage, we refine lip movements at the frame level using a lip-tracing mask, ensuring precise synchronization with audio signals. To preserve identity without compromising motion flexibility, we replace the commonly used reference network with a facial-focused cross-attention module that effectively maintains facial consistency throughout the video. Furthermore, we integrate a motion intensity modulation module that explicitly controls expression and body motion intensity, enabling controllable manipulation of portrait movements beyond mere lip motion. Extensive experimental results show that our proposed approach achieves higher quality with better realism, coherence, motion intensity, and identity preservation. Ours project page: https://fantasy-amap.github.io/fantasy-talking/.