HAHA: Highly Articulated Gaussian Human Avatars with Textured Mesh Prior

📄 arXiv: 2404.01053v2 📥 PDF

作者: David Svitov, Pietro Morerio, Lourdes Agapito, Alessio Del Bue

分类: cs.CV

发布日期: 2024-04-01 (更新: 2024-10-09)


💡 一句话要点

提出HAHA以解决单目视频生成可动画人类头像问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 人类头像生成 高斯点云 纹理网格 动画技术 计算机视觉 深度学习 SMPL-X模型

📋 核心要点

  1. 现有方法在从单目视频生成可动画人类头像时,难以处理小身体部位的动画,且渲染伪影较多。
  2. 论文提出的HAHA方法通过结合高斯点云和纹理网格,优化了渲染效率和质量,特别是在细节处理上。
  3. 实验结果表明,HAHA在SnapshotPeople数据集上重建质量与最先进方法相当,但使用的高斯数量减少到三分之一,并在X-Humans数据集上表现优越。

📝 摘要(中文)

我们提出了HAHA,一种从单目输入视频生成可动画人类头像的新方法。该方法依赖于学习高斯点云与纹理网格之间的权衡,以实现高效且高保真的渲染。我们展示了该方法在通过SMPL-X参数模型控制全身人类头像的动画和渲染方面的高效性。我们的模型仅在SMPL-X网格的必要区域应用高斯点云,从而减少了用于表示完整头像的高斯数量,并降低了渲染伪影。这使得我们能够处理传统上被忽视的小身体部位动画,如手指。我们在两个开放数据集SnapshotPeople和X-Humans上验证了该方法的有效性。我们的重建质量在SnapshotPeople上与最先进的方法相当,同时使用的高斯数量不到三分之一。在X-Humans上的新姿势表现上,HAHA在定量和定性上均优于之前的最先进方法。

🔬 方法详解

问题定义:论文要解决的具体问题是如何从单目视频生成可动画的人类头像,尤其是在处理小身体部位动画和减少渲染伪影方面,现有方法存在显著不足。

核心思路:论文的核心解决思路是通过结合高斯点云和纹理网格,优化渲染过程。该方法仅在必要的区域应用高斯点云,从而减少计算负担并提高渲染质量。

技术框架:整体架构包括输入单目视频,利用SMPL-X参数模型生成初步网格,然后在必要区域应用高斯点云进行细节补充,最终输出可动画的人类头像。

关键创新:最重要的技术创新点在于高斯点云的选择性应用,这与现有方法的全局应用形成鲜明对比,显著减少了高斯数量和渲染伪影。

关键设计:关键设计包括高斯点云的数量控制、损失函数的优化,以及网络结构的选择,以确保在细节区域的高效渲染和动画效果。具体参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,HAHA在SnapshotPeople数据集上的重建质量与最先进的方法相当,但使用的高斯数量减少到三分之一。在X-Humans数据集上,HAHA在新姿势的表现上无论是定量还是定性均优于之前的最先进方法,展示了其显著的性能提升。

🎯 应用场景

该研究的潜在应用场景包括虚拟现实、游戏开发和动画制作等领域。通过生成高质量的可动画人类头像,能够提升用户体验和交互性,具有广泛的实际价值和未来影响。

📄 摘要(原文)

We present HAHA - a novel approach for animatable human avatar generation from monocular input videos. The proposed method relies on learning the trade-off between the use of Gaussian splatting and a textured mesh for efficient and high fidelity rendering. We demonstrate its efficiency to animate and render full-body human avatars controlled via the SMPL-X parametric model. Our model learns to apply Gaussian splatting only in areas of the SMPL-X mesh where it is necessary, like hair and out-of-mesh clothing. This results in a minimal number of Gaussians being used to represent the full avatar, and reduced rendering artifacts. This allows us to handle the animation of small body parts such as fingers that are traditionally disregarded. We demonstrate the effectiveness of our approach on two open datasets: SnapshotPeople and X-Humans. Our method demonstrates on par reconstruction quality to the state-of-the-art on SnapshotPeople, while using less than a third of Gaussians. HAHA outperforms previous state-of-the-art on novel poses from X-Humans both quantitatively and qualitatively.