MagicPortrait: Temporally Consistent Face Reenactment with 3D Geometric Guidance
作者: Mengting Wei, Yante Li, Tuomas Varanka, Yan Jiang, Guoying Zhao
分类: cs.CV
发布日期: 2025-04-30 (更新: 2025-10-29)
🔗 代码/项目: GITHUB
💡 一句话要点
MagicPortrait:利用3D几何引导实现时间一致的人脸重演
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)
关键词: 人脸重演 3D人脸模型 潜在扩散模型 FLAME模型 几何引导 视频生成 表情迁移
📋 核心要点
- 现有视频人脸重演方法在形状一致性和运动控制方面存在不足,难以生成高质量且时间连续的人脸动画。
- 该论文提出将3D人脸参数模型FLAME集成到潜在扩散框架中,利用几何信息引导生成过程,从而提升形状一致性和运动控制。
- 实验结果表明,该方法在基准数据集上表现出色,能够生成具有精确表情和头部姿势变化的高质量人脸动画,并具有良好的泛化能力。
📝 摘要(中文)
本研究提出了一种视频人脸重演方法,该方法将3D人脸参数模型集成到潜在扩散框架中,旨在提高现有基于视频的人脸生成方法中的形状一致性和运动控制。我们的方法采用FLAME(Faces Learned with an Articulated Model and Expressions)模型作为3D人脸参数表示,为建模面部表情和头部姿势提供了一个统一的框架。这不仅能够从驱动视频中精确提取运动特征,还有助于忠实地保持面部形状和几何结构。具体来说,我们通过结合从FLAME序列导出的深度图、法线贴图和渲染图,利用丰富的3D表情和详细的姿势信息来增强潜在扩散模型。这些贴图作为运动引导,并通过专门设计的几何引导编码器(GGE)被编码到去噪UNet中。一个集成了自注意力机制的多层特征融合模块被用于在空间域内组合面部外观和运动潜在特征。通过利用3D人脸参数模型作为运动引导,我们的方法能够实现参考图像和驱动视频中捕获的运动之间的人脸身份的参数对齐。在基准数据集上的实验结果表明,我们的方法擅长生成高质量的人脸动画,并具有精确的表情和头部姿势变化建模能力。此外,它还展示了对领域外图像的强大泛化性能。代码已在https://github.com/weimengting/MagicPortrait上公开。
🔬 方法详解
问题定义:现有基于视频的人脸重演方法难以保证生成视频中人脸形状的一致性,并且对运动的控制不够精确,导致生成的人脸动画质量不高,时间连续性较差。这些方法通常难以精确捕捉和传递驱动视频中的细微表情和头部姿势变化。
核心思路:论文的核心思路是将3D人脸参数模型FLAME作为运动引导,融入到潜在扩散模型中。FLAME模型能够提供精确的面部形状和姿势信息,从而在生成过程中约束人脸的几何结构,提高形状一致性。同时,利用FLAME模型提取的运动特征,可以更精确地控制生成人脸的表情和头部姿势。
技术框架:该方法的技术框架主要包括以下几个模块:1) FLAME模型:用于提取参考图像和驱动视频中的3D人脸参数,包括形状、表情和姿势。2) 几何引导编码器(GGE):将从FLAME序列导出的深度图、法线贴图和渲染图编码到去噪UNet中,作为运动引导。3) 潜在扩散模型:以编码后的几何引导信息为条件,生成人脸图像。4) 多层特征融合模块:集成了自注意力机制,用于在空间域内组合面部外观和运动潜在特征。
关键创新:该方法最重要的技术创新点在于将3D人脸参数模型FLAME与潜在扩散模型相结合,利用FLAME模型提供的几何信息作为运动引导。与现有方法相比,该方法能够更精确地控制人脸的形状和运动,从而生成更高质量、时间连续性更好的人脸动画。此外,专门设计的几何引导编码器(GGE)也是一个创新点,它能够有效地将3D几何信息融入到潜在扩散模型的生成过程中。
关键设计:GGE的具体结构未知,但其目的是将深度图、法线贴图和渲染图编码到去噪UNet中。多层特征融合模块集成了自注意力机制,用于在空间域内组合面部外观和运动潜在特征,具体融合方式未知。损失函数的设计也未知,但推测会包含重建损失、对抗损失以及可能存在的与3D几何信息相关的损失。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在基准数据集上取得了显著的性能提升,能够生成具有精确表情和头部姿势变化的高质量人脸动画。该方法在形状一致性和运动控制方面优于现有方法,并且具有良好的泛化能力,能够处理领域外的图像。具体的性能数据和对比基线未知。
🎯 应用场景
该研究成果可应用于虚拟形象生成、电影特效制作、游戏开发、视频会议等领域。通过该技术,可以创建更逼真、更具表现力的虚拟角色,提升用户体验。此外,该技术还可以用于修复老旧视频或生成特定人物的动画形象,具有广泛的应用前景。
📄 摘要(原文)
In this study, we propose a method for video face reenactment that integrates a 3D face parametric model into a latent diffusion framework, aiming to improve shape consistency and motion control in existing video-based face generation approaches. Our approach employs the FLAME (Faces Learned with an Articulated Model and Expressions) model as the 3D face parametric representation, providing a unified framework for modeling face expressions and head pose. This not only enables precise extraction of motion features from driving videos, but also contributes to the faithful preservation of face shape and geometry. Specifically, we enhance the latent diffusion model with rich 3D expression and detailed pose information by incorporating depth maps, normal maps, and rendering maps derived from FLAME sequences. These maps serve as motion guidance and are encoded into the denoising UNet through a specifically designed Geometric Guidance Encoder (GGE). A multi-layer feature fusion module with integrated self-attention mechanisms is used to combine facial appearance and motion latent features within the spatial domain. By utilizing the 3D face parametric model as motion guidance, our method enables parametric alignment of face identity between the reference image and the motion captured from the driving video. Experimental results on benchmark datasets show that our method excels at generating high-quality face animations with precise expression and head pose variation modeling. In addition, it demonstrates strong generalization performance on out-of-domain images. Code is publicly available at https://github.com/weimengting/MagicPortrait.