FreeAvatar: Robust 3D Facial Animation Transfer by Learning an Expression Foundation Model

📄 arXiv: 2409.13180v2 📥 PDF

作者: Feng Qiu, Wei Zhang, Chen Liu, Rudong An, Lincheng Li, Yu Ding, Changjie Fan, Zhipeng Hu, Xin Yu

分类: cs.GR, cs.AI

发布日期: 2024-09-20 (更新: 2024-10-09)

备注: 11 pages, 10 figures

DOI: 10.1145/3680528.3687669


💡 一句话要点

FreeAvatar:通过学习表情基础模型实现鲁棒的3D面部动画迁移

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D面部动画 表情迁移 表情基础模型 神经渲染 多头像动画

📋 核心要点

  1. 现有面部动画迁移方法依赖几何约束或分类特征,难以捕捉细微情感或处理复杂表情。
  2. FreeAvatar通过学习表情基础模型,提取更鲁棒和精细的表情表征,驱动3D头像动画。
  3. 该方法利用无标签数据和表情比较数据集进行训练,并提出动态身份注入模块,实现多头像联合训练。

📝 摘要(中文)

本文提出了一种名为FreeAvatar的鲁棒面部动画迁移方法,旨在驱动3D头像复现演员的面部表情。现有方法虽然在几何和感知一致性方面取得了显著成果,但几何约束难以捕捉细微的情感,而分类任务训练的表情特征对于复杂情感缺乏精细粒度。FreeAvatar完全依赖于学习到的表情表征,包含表情基础模型和面部动画迁移模型。首先,通过面部重建任务构建面部特征空间,然后通过探索不同表情之间的相似性来优化表情特征空间。受益于大量无标签面部图像和重新收集的表情比较数据集的训练,该模型可以自由有效地适应任何真实场景中的面部图像输入。在面部动画迁移部分,提出了一个由表情驱动的多头像动画器,它首先将表情语义映射到3D头像的面部控制参数,然后在输入和输出图像之间施加感知约束以保持表情一致性。为了使整个过程可微,使用训练好的神经渲染器将绑定参数转换为相应的图像。此外,与以前需要为每个头像单独解码器的方法不同,提出了一种动态身份注入模块,允许在单个网络中联合训练多个头像。

🔬 方法详解

问题定义:现有视频驱动的3D面部动画迁移方法,依赖于几何约束(如面部关键点)或分类任务训练的表情特征。几何约束难以捕捉细微的情感变化,而分类特征对于复杂表情的表达不够精细。此外,现有方法通常需要为每个3D头像训练单独的解码器,效率较低。

核心思路:FreeAvatar的核心思路是学习一个通用的、鲁棒的表情基础模型,该模型能够捕捉细微的情感变化,并能泛化到不同的3D头像。通过表情基础模型提取的表情特征,可以驱动3D头像进行动画迁移,同时保持表情的感知一致性。

技术框架:FreeAvatar包含两个主要模块:表情基础模型和面部动画迁移模型。表情基础模型首先通过面部重建任务构建面部特征空间,然后通过表情相似性学习优化表情特征空间。面部动画迁移模型采用一个表情驱动的多头像动画器,将表情语义映射到3D头像的面部控制参数,并通过感知损失保持表情一致性。整个过程使用神经渲染器进行可微渲染。

关键创新:FreeAvatar的关键创新在于:1) 提出了一个表情基础模型,能够学习到鲁棒且精细的表情表征;2) 提出了一个动态身份注入模块,允许在单个网络中联合训练多个3D头像,避免了为每个头像单独训练解码器的需要。

关键设计:表情基础模型训练使用了大量的无标签面部图像和重新收集的表情比较数据集。面部动画迁移模型使用了神经渲染器来实现可微渲染,并使用感知损失来保持表情一致性。动态身份注入模块的具体实现细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了FreeAvatar的有效性。实验结果表明,FreeAvatar能够生成更逼真和自然的3D头像动画,在表情迁移的准确性和鲁棒性方面优于现有方法。具体的性能数据和对比基线未知,但摘要强调了该方法在适应真实场景面部图像输入方面的优势。

🎯 应用场景

FreeAvatar可应用于虚拟现实、增强现实、游戏开发、电影制作等领域,实现更逼真和自然的3D头像动画。该技术可以用于创建个性化的虚拟形象,提升用户在虚拟环境中的交互体验,并为远程交流提供更丰富的表情表达方式。未来,该技术有望应用于智能客服、虚拟助手等领域,提升人机交互的自然性和情感化。

📄 摘要(原文)

Video-driven 3D facial animation transfer aims to drive avatars to reproduce the expressions of actors. Existing methods have achieved remarkable results by constraining both geometric and perceptual consistency. However, geometric constraints (like those designed on facial landmarks) are insufficient to capture subtle emotions, while expression features trained on classification tasks lack fine granularity for complex emotions. To address this, we propose \textbf{FreeAvatar}, a robust facial animation transfer method that relies solely on our learned expression representation. Specifically, FreeAvatar consists of two main components: the expression foundation model and the facial animation transfer model. In the first component, we initially construct a facial feature space through a face reconstruction task and then optimize the expression feature space by exploring the similarities among different expressions. Benefiting from training on the amounts of unlabeled facial images and re-collected expression comparison dataset, our model adapts freely and effectively to any in-the-wild input facial images. In the facial animation transfer component, we propose a novel Expression-driven Multi-avatar Animator, which first maps expressive semantics to the facial control parameters of 3D avatars and then imposes perceptual constraints between the input and output images to maintain expression consistency. To make the entire process differentiable, we employ a trained neural renderer to translate rig parameters into corresponding images. Furthermore, unlike previous methods that require separate decoders for each avatar, we propose a dynamic identity injection module that allows for the joint training of multiple avatars within a single network.