Joker: Conditional 3D Head Synthesis with Extreme Facial Expressions

📄 arXiv: 2410.16395v1 📥 PDF

作者: Malte Prinzler, Egor Zakharov, Vanessa Sklyarova, Berna Kabadayi, Justus Thies

分类: cs.CV, cs.GR

发布日期: 2024-10-21

备注: Project Page: https://malteprinzler.github.io/projects/joker/


💡 一句话要点

Joker:基于条件扩散模型的三维头部极端表情合成

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 三维人头合成 极端表情 扩散模型 神经辐射场 多模态条件 3D蒸馏 视图一致性

📋 核心要点

  1. 现有3DMM方法难以捕捉细微情感变化和极端表情,尤其是在口腔和舌头运动方面。
  2. Joker利用2D扩散模型作为先验,结合3DMM和文本输入,实现对极端表情的精确控制。
  3. 通过3D蒸馏技术将2D先验知识转化为NeRF,显著提升了视图一致性,并实现了逼真的舌头运动。

📝 摘要(中文)

我们提出了Joker,一种用于条件合成具有极端表情的三维人头的新方法。给定一个人的单张参考图像,我们可以合成具有参考身份和新表情的体三维人头。我们通过3D形变模型(3DMM)和文本输入来控制表情。这种多模态条件信号至关重要,因为仅靠3DMM无法定义细微的情感变化和极端表情,包括涉及口腔和舌头运动的表情。我们的方法建立在基于2D扩散的先验之上,该先验可以很好地推广到领域外样本,例如雕塑、浓妆和绘画,同时实现高水平的表现力。为了提高视图一致性,我们提出了一种新的3D蒸馏技术,将2D先验的预测转换为神经辐射场(NeRF)。2D先验和我们的蒸馏技术都产生了最先进的结果,这已通过我们广泛的评估得到证实。此外,据我们所知,我们的方法是第一个实现视图一致的极端舌头运动的方法。

🔬 方法详解

问题定义:论文旨在解决三维人头表情合成中,现有3DMM方法难以生成极端和细微表情的问题。现有方法在处理口腔内部细节(如舌头运动)以及领域外样本(如雕塑、绘画)时表现不佳,缺乏足够的表现力和泛化能力。

核心思路:论文的核心思路是结合2D扩散模型强大的生成能力和3DMM的结构化控制,并引入文本信息作为额外的条件输入。通过2D扩散模型学习表情的先验知识,然后利用3D蒸馏技术将2D信息转化为3D NeRF表示,从而保证视图一致性。

技术框架:Joker方法包含以下几个主要阶段:1) 2D扩散先验学习:使用包含各种表情的数据集训练一个2D扩散模型,使其能够生成具有丰富表情的图像。2) 多模态条件输入:结合3DMM参数和文本描述作为条件输入,控制生成图像的身份和表情。3) 2D图像生成:使用训练好的2D扩散模型,根据条件输入生成多视角的2D图像。4) 3D蒸馏:将生成的2D图像作为监督信号,训练一个NeRF模型,从而得到具有视图一致性的3D人头表示。

关键创新:该方法最重要的创新点在于结合了2D扩散模型和3D蒸馏技术,实现了对极端表情的精确控制和高质量的3D重建。与传统方法相比,该方法能够生成更逼真、更具表现力的表情,尤其是在口腔和舌头运动方面。此外,该方法还具有良好的泛化能力,可以处理领域外样本。

关键设计:在2D扩散模型方面,使用了DDPM架构,并针对人脸表情合成进行了优化。在3D蒸馏方面,设计了一种新的损失函数,鼓励NeRF模型生成的图像与2D扩散模型生成的图像保持一致。此外,还使用了多视角一致性损失,进一步提高视图一致性。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Joker方法在极端表情合成方面取得了显著的性能提升,尤其是在舌头运动的逼真度方面。通过与现有方法的对比,Joker在视图一致性和生成质量方面均达到了最先进水平。定量评估和用户研究也证实了Joker方法的优越性。

🎯 应用场景

该研究成果可广泛应用于虚拟现实、游戏开发、电影制作等领域。例如,可以用于创建更逼真、更具表现力的虚拟角色,或者用于生成具有特定表情的3D人头模型。此外,该方法还可以用于人脸动画、表情迁移等任务,具有重要的实际应用价值和广阔的市场前景。

📄 摘要(原文)

We introduce Joker, a new method for the conditional synthesis of 3D human heads with extreme expressions. Given a single reference image of a person, we synthesize a volumetric human head with the reference identity and a new expression. We offer control over the expression via a 3D morphable model (3DMM) and textual inputs. This multi-modal conditioning signal is essential since 3DMMs alone fail to define subtle emotional changes and extreme expressions, including those involving the mouth cavity and tongue articulation. Our method is built upon a 2D diffusion-based prior that generalizes well to out-of-domain samples, such as sculptures, heavy makeup, and paintings while achieving high levels of expressiveness. To improve view consistency, we propose a new 3D distillation technique that converts predictions of our 2D prior into a neural radiance field (NeRF). Both the 2D prior and our distillation technique produce state-of-the-art results, which are confirmed by our extensive evaluations. Also, to the best of our knowledge, our method is the first to achieve view-consistent extreme tongue articulation.