PartNerFace: Part-based Neural Radiance Fields for Animatable Facial Avatar Reconstruction
作者: Xianggang Yu, Lingteng Qiu, Xiaohang Ren, Guanying Chen, Shuguang Cui, Xiaoguang Han, Baoyuan Wang
分类: cs.CV
发布日期: 2026-04-15
💡 一句话要点
PartNerFace:基于部件的神经辐射场,用于可动画人脸Avatar重建
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 神经辐射场 人脸重建 可动画Avatar 部件建模 逆蒙皮
📋 核心要点
- 现有方法在人脸Avatar重建中,难以泛化到未见过的表情,且无法捕捉精细的面部运动细节。
- PartNerFace的核心思想是,通过基于部件的变形场,对不同面部区域的变形进行差异化建模,从而提升重建效果。
- 实验结果表明,PartNerFace在未见过的表情上表现良好,并能捕捉精细的面部运动,优于现有方法。
📝 摘要(中文)
本文提出了一种基于部件的神经辐射场方法PartNerFace,用于从单目RGB视频重建可动画的人脸Avatar。现有方法要么简单地使用可变形模型参数调节隐式网络,要么学习一个假想的规范辐射场,导致它们无法泛化到未见过的面部表情,并且难以捕捉精细的运动细节。为了解决这些挑战,我们首先应用基于参数化头部模型的逆蒙皮技术,将观察到的点映射到规范空间,然后使用基于部件的变形场对精细运动进行建模。我们的核心思想是,不同面部部件的变形应该被区别建模。具体来说,我们的基于部件的变形场由多个局部MLP组成,以自适应地将规范空间划分为不同的部件,其中3D点的变形是通过软加权机制聚合所有局部MLP的预测来计算的。大量实验表明,我们的方法能够很好地泛化到未见过的表情,并且能够建模精细的面部运动,在定量和定性方面都优于最先进的方法。
🔬 方法详解
问题定义:现有基于神经辐射场的人脸Avatar重建方法,要么直接使用可变形模型参数调节隐式网络,要么学习一个假想的规范辐射场。这些方法难以泛化到未见过的面部表情,并且无法捕捉精细的面部运动细节,例如眼角、嘴角等区域的细微变化。因此,如何提升人脸Avatar重建的泛化性和细节捕捉能力是本文要解决的核心问题。
核心思路:本文的核心思路是将人脸划分为多个部件,并为每个部件学习独立的变形场。通过这种方式,可以更精细地建模不同面部区域的运动,从而提升重建效果。关键在于如何合理地划分部件,以及如何将不同部件的变形信息进行融合。
技术框架:PartNerFace的整体框架如下:1) 首先,使用参数化头部模型进行逆蒙皮,将观察到的3D点映射到规范空间。2) 然后,使用基于部件的变形场对规范空间中的点进行变形。3) 最后,使用神经辐射场渲染变形后的点,得到最终的图像。其中,基于部件的变形场是本文的核心模块。
关键创新:本文最重要的创新点在于提出了基于部件的变形场。与传统的全局变形场相比,基于部件的变形场可以更精细地建模不同面部区域的运动。具体来说,本文使用多个局部MLP来预测每个部件的变形,并通过软加权机制将不同MLP的预测结果进行融合。这种方法可以自适应地将规范空间划分为不同的部件,并为每个部件学习独立的变形。
关键设计:在基于部件的变形场中,每个局部MLP的输入是规范空间中的3D点坐标,输出是该点的变形向量。软加权机制使用一个额外的MLP来预测每个局部MLP的权重,权重的大小取决于3D点与对应部件的关联程度。损失函数包括重建损失、正则化损失等,用于约束变形场的平滑性和准确性。具体的网络结构和参数设置在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PartNerFace在未见过的表情上表现出良好的泛化能力,并且能够捕捉到精细的面部运动细节。在定量评估方面,PartNerFace在多个指标上都优于现有方法。在定性评估方面,PartNerFace重建的人脸Avatar更加逼真,表情更加自然。
🎯 应用场景
PartNerFace具有广泛的应用前景,例如虚拟现实、增强现实、游戏、动画制作等领域。它可以用于创建逼真且可动画的虚拟人脸,从而提升用户在这些应用中的沉浸感和交互体验。此外,该技术还可以应用于远程会议、数字替身等场景,实现更自然和高效的沟通。
📄 摘要(原文)
We present PartNerFace, a part-based neural radiance fields approach, for reconstructing animatable facial avatar from monocular RGB videos. Existing solutions either simply condition the implicit network with the morphable model parameters or learn an imaginary canonical radiance field, making them fail to generalize to unseen facial expressions and capture fine-scale motion details. To address these challenges, we first apply inverse skinning based on a parametric head model to map an observed point to the canonical space, and then model fine-scale motions with a part-based deformation field. Our key insight is that the deformation of different facial parts should be modeled differently. Specifically, our part-based deformation field consists of multiple local MLPs to adaptively partition the canonical space into different parts, where the deformation of a 3D point is computed by aggregating the prediction of all local MLPs by a soft-weighting mechanism. Extensive experiments demonstrate that our method generalizes well to unseen expressions and is capable of modeling fine-scale facial motions, outperforming state-of-the-art methods both quantitatively and qualitatively.