Gaussian Head & Shoulders: High Fidelity Neural Upper Body Avatars with Anchor Gaussian Guided Texture Warping

📄 arXiv: 2405.12069v2 📥 PDF

作者: Tianhao Wu, Jing Yang, Zhilin Guo, Jingyi Wan, Fangcheng Zhong, Cengiz Oztireli

分类: cs.CV

发布日期: 2024-05-20 (更新: 2024-05-21)

备注: Project Page: https://gaussian-head-shoulders.netlify.app/


💡 一句话要点

提出基于Anchor Gaussian引导纹理扭曲的高保真神经上半身Avatar方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 神经渲染 高斯溅射 人体Avatar 神经纹理 3D形变模型 姿态估计 纹理扭曲

📋 核心要点

  1. 现有头部Avatar方法忽略身体重建,限制了应用场景,直接使用高斯模型重建服装身体易产生模糊和噪声。
  2. 提出使用神经纹理建模身体,并优化稀疏高斯锚点约束神经扭曲场,实现视角和姿势相关的身体纹理渲染。
  3. 实验证明,该方法能高保真重建服装上半身细节,提升头部区域精度,并在重演任务中表现出卓越的质量和鲁棒性。

📝 摘要(中文)

现有方法通过将3D高斯溅射表示与头部3D形变模型(3DMM)结合,创建了高保真头部Avatar。然而,大多数现有方法仅重建头部,限制了应用场景。直接应用高斯模型对带有服装的胸部和肩部建模,容易导致重建模糊和噪声伪影,这是由于高斯和点云的局限性——每个高斯或点只能具有单个方向的辐射度,而没有空间变化,因此需要大量高斯或点来表示复杂的空间变化纹理,即使对于简单的几何体也是如此。因此,我们提出使用神经纹理来建模身体部分,该纹理由粗糙的和姿势相关的精细颜色组成。为了在没有精确几何体或UV映射的情况下,为每个视角和姿势正确渲染身体纹理,我们优化了另一组稀疏高斯作为锚点,约束将图像平面坐标映射到纹理空间的神经扭曲场。实验表明,Gaussian Head & Shoulders可以高保真地拟合服装上半身的高频细节,并可能提高头部区域的准确性和保真度。我们使用手机拍摄和互联网视频评估了我们的方法,结果表明我们的方法在自我和交叉重演任务中都实现了卓越的重建质量和鲁棒性。为了充分利用高斯溅射的快速渲染速度,我们还提出了一种加速推理方法,无需多层感知机(MLP)查询,并达到了约130 FPS的稳定渲染速度。

🔬 方法详解

问题定义:现有头部Avatar重建方法通常只关注头部,忽略了身体部分,限制了应用场景。直接将3D高斯溅射应用于服装覆盖的胸部和肩部时,由于高斯表示缺乏空间变化建模能力,会导致重建结果模糊,并产生漂浮的噪声点,难以捕捉服装表面的高频细节。

核心思路:论文的核心思路是将身体部分建模为一个神经纹理,该纹理包含粗糙的基础颜色和姿势相关的精细颜色。为了在没有精确几何信息和UV映射的情况下,正确地渲染身体纹理,论文引入了一组稀疏的高斯锚点,用于约束一个神经扭曲场,该扭曲场将图像平面坐标映射到纹理空间。

技术框架:该方法主要包含以下几个模块:1) 头部建模:使用现有的3DMM方法重建头部;2) 身体建模:使用神经纹理表示身体,该纹理由粗糙颜色和姿势相关的精细颜色组成;3) 锚点高斯:优化一组稀疏的高斯作为锚点,用于约束神经扭曲场;4) 神经扭曲场:学习一个将图像平面坐标映射到纹理空间的扭曲场,用于渲染身体纹理。整体流程是,首先使用3DMM重建头部,然后优化神经纹理和锚点高斯,最后使用神经扭曲场渲染身体纹理。

关键创新:该方法最重要的创新点在于使用神经纹理和高斯锚点来建模身体部分。与直接使用高斯溅射建模身体相比,该方法能够更好地捕捉服装表面的高频细节,并避免重建模糊和噪声伪影。此外,使用高斯锚点约束神经扭曲场,可以在没有精确几何信息和UV映射的情况下,实现视角和姿势相关的身体纹理渲染。

关键设计:论文中关键的设计包括:1) 神经纹理的表示方式,包括粗糙颜色和姿势相关的精细颜色;2) 高斯锚点的数量和位置;3) 神经扭曲场的网络结构和损失函数;4) 加速推理方法,避免MLP查询,提高渲染速度。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,该方法能够高保真地重建服装上半身的高频细节,并可能提高头部区域的准确性和保真度。在自我和交叉重演任务中,该方法实现了卓越的重建质量和鲁棒性。此外,该方法还提出了一种加速推理方法,无需MLP查询,达到了约130 FPS的稳定渲染速度,充分利用了高斯溅射的快速渲染能力。

🎯 应用场景

该研究成果可广泛应用于虚拟现实、增强现实、游戏、视频会议等领域,实现更逼真、更具沉浸感的人体Avatar体验。例如,用户可以使用手机拍摄的视频创建自己的高保真上半身Avatar,用于在线会议、虚拟社交等场景。该技术还有潜力应用于远程医疗、数字时尚等领域。

📄 摘要(原文)

By equipping the most recent 3D Gaussian Splatting representation with head 3D morphable models (3DMM), existing methods manage to create head avatars with high fidelity. However, most existing methods only reconstruct a head without the body, substantially limiting their application scenarios. We found that naively applying Gaussians to model the clothed chest and shoulders tends to result in blurry reconstruction and noisy floaters under novel poses. This is because of the fundamental limitation of Gaussians and point clouds -- each Gaussian or point can only have a single directional radiance without spatial variance, therefore an unnecessarily large number of them is required to represent complicated spatially varying texture, even for simple geometry. In contrast, we propose to model the body part with a neural texture that consists of coarse and pose-dependent fine colors. To properly render the body texture for each view and pose without accurate geometry nor UV mapping, we optimize another sparse set of Gaussians as anchors that constrain the neural warping field that maps image plane coordinates to the texture space. We demonstrate that Gaussian Head & Shoulders can fit the high-frequency details on the clothed upper body with high fidelity and potentially improve the accuracy and fidelity of the head region. We evaluate our method with casual phone-captured and internet videos and show our method archives superior reconstruction quality and robustness in both self and cross reenactment tasks. To fully utilize the efficient rendering speed of Gaussian splatting, we additionally propose an accelerated inference method of our trained model without Multi-Layer Perceptron (MLP) queries and reach a stable rendering speed of around 130 FPS for any subjects.