One-shot Compositional 3D Head Avatars with Deformable Hair
作者: Yuan Sun, Xuan Wang, WeiLi Zhang, Wenxuan Zhang, Yu Guo, Fei Wang
分类: cs.CV
发布日期: 2026-04-16
备注: project page: https://yuansun-xjtu.github.io/CompHairHead.io
💡 一句话要点
提出一种可变形头发的单图像组合式3D头部Avatar构建方法,提升动画真实感。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱四:生成式动作 (Generative Motion)
关键词: 3D头部Avatar 单图像重建 可变形头发 高斯溅射 物理模拟
📋 核心要点
- 现有单图像3D头部Avatar方法难以生成逼真头发动态,主要原因是头发与面部几何形状纠缠,导致动画变形不自然。
- 该方法将头发与面部分离建模,面部使用FLAME网格绑定进行非刚性变形,头发使用PBD模拟的笼状结构控制。
- 实验结果表明,该方法生成的3D头部Avatar在头部运动、重力影响和表情变化下,头发动态更逼真,面部细节保留更好。
📝 摘要(中文)
本文提出了一种组合式方法,用于从单张图像构建完整的3D头部Avatar。以往的单镜头整体方法在动画过程中经常无法产生逼真的头发动态,这主要是由于头发与面部区域的解耦不充分,导致几何形状纠缠和不自然的变形。我们的方法明确地将头发与面部分离,使用不同的变形范式对这些组件进行建模,同时将它们集成到统一的渲染流程中。此外,通过利用图像到3D的提升技术,我们最大限度地保留了来自输入图像的精细纹理,有效地缓解了通用模型中常见的高频信息丢失问题。具体来说,给定一张正面人像图像,我们首先进行脱发处理以获得一张光头图像。然后将原始图像和光头图像都提升为密集的、细节丰富的3D高斯溅射(3DGS)表示。对于光头3DGS,我们通过与先验模型的非刚性配准将其绑定到FLAME网格,从而实现遵循网格三角形的自然变形。对于头发组件,我们采用语义标签监督结合边界感知重新分配策略来提取干净且隔离的头发高斯集合。为了控制头发变形,我们引入了一种支持基于位置的动力学(PBD)模拟的笼状结构,从而允许头发高斯基元在头部运动、重力和惯性效应下进行逼真且物理上合理的变换。引人注目的定性结果,包括在各种头部运动、重力效应和表情下的动态动画,展示了更加逼真的头发行为以及忠实保留的面部细节,在感知真实感方面优于最先进的单镜头方法。
🔬 方法详解
问题定义:现有单图像3D头部Avatar构建方法在处理头发动画时存在真实感不足的问题。主要痛点在于头发与面部区域的几何形状紧密耦合,导致在动画过程中头发的变形不自然,缺乏物理上的合理性。此外,通用模型容易丢失输入图像中的高频细节,影响最终Avatar的真实度。
核心思路:该论文的核心思路是将头发与面部分离建模,分别采用不同的变形策略。面部使用基于FLAME模型的非刚性配准,保证面部表情的自然性;头发则使用基于位置的动力学(PBD)模拟,使其能够模拟重力、惯性等物理效果,从而实现更真实的头发动态。同时,利用图像到3D的提升技术,尽可能保留原始图像的细节信息。
技术框架:整体流程如下:1) 输入单张正面人像图像;2) 进行脱发处理,生成光头图像;3) 分别将原始图像和光头图像提升为3D高斯溅射(3DGS)表示;4) 将光头3DGS通过非刚性配准绑定到FLAME网格;5) 使用语义标签监督和边界感知重新分配策略提取头发高斯;6) 构建头发的笼状结构,并使用PBD模拟控制头发变形;7) 将面部和头发组件集成到统一的渲染流程中。
关键创新:该论文的关键创新在于头发与面部的解耦建模以及头发的PBD模拟。与以往将头发和面部作为一个整体进行建模的方法不同,该方法能够更精细地控制头发的运动,使其更符合物理规律。此外,使用笼状结构来控制头发高斯的变形,简化了PBD模拟的复杂度。
关键设计:在头发提取阶段,使用了语义标签监督来区分头发和背景,并采用边界感知重新分配策略来优化头发区域的分割效果,确保提取的头发高斯集合干净且隔离。在PBD模拟中,笼状结构的顶点位置和连接关系对头发的变形效果有重要影响,需要根据具体的头发形状进行调整。具体的参数设置和损失函数细节未知。
🖼️ 关键图片
📊 实验亮点
该方法在动态动画中展示了更逼真的头发行为,并忠实地保留了面部细节,在感知真实感方面优于现有最先进的单镜头方法。通过定性结果可以看出,该方法生成的3D头部Avatar在头部运动、重力影响和表情变化下,头发的摆动和变形更加自然,面部细节也更加清晰。
🎯 应用场景
该研究成果可应用于虚拟现实、增强现实、游戏开发、电影制作等领域,用于创建更逼真、更具表现力的3D虚拟角色。例如,在元宇宙中,用户可以使用自己的照片快速生成具有逼真头发动态的3D Avatar,从而提升虚拟社交的沉浸感。该技术还可以用于数字替身、虚拟主播等应用场景。
📄 摘要(原文)
We propose a compositional method for constructing a complete 3D head avatar from a single image. Prior one-shot holistic approaches frequently fail to produce realistic hair dynamics during animation, largely due to inadequate decoupling of hair from the facial region, resulting in entangled geometry and unnatural deformations. Our method explicitly decouples hair from the face, modeling these components using distinct deformation paradigms while integrating them into a unified rendering pipeline. Furthermore, by leveraging image-to-3D lifting techniques, we preserve fine-grained textures from the input image to the greatest extent possible, effectively mitigating the common issue of high-frequency information loss in generalized models. Specifically, given a frontal portrait image, we first perform hair removal to obtain a bald image. Both the original image and the bald image are then lifted to dense, detail-rich 3D Gaussian Splatting (3DGS) representations. For the bald 3DGS, we rig it to a FLAME mesh via non-rigid registration with a prior model, enabling natural deformation that follows the mesh triangles during animation. For the hair component, we employ semantic label supervision combined with a boundary-aware reassignment strategy to extract a clean and isolated set of hair Gaussians. To control hair deformation, we introduce a cage structure that supports Position-Based Dynamics (PBD) simulation, allowing realistic and physically plausible transformations of the hair Gaussian primitives under head motion, gravity, and inertial effects. Striking qualitative results, including dynamic animations under diverse head motions, gravity effects, and expressions, showcase substantially more realistic hair behavior alongside faithfully preserved facial details, outperforming state-of-the-art one-shot methods in perceptual realism.