3D-Consistent Human Avatars with Sparse Inputs via Gaussian Splatting and Contrastive Learning

📄 arXiv: 2408.09663v3 📥 PDF

作者: Haoyu Zhao, Hao Wang, Chen Yang, Wei Shen

分类: cs.CV

发布日期: 2024-08-19 (更新: 2024-11-19)


💡 一句话要点

CHASE:利用高斯溅射和对比学习,通过稀疏输入实现3D一致的人体化身

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 人体化身生成 3D高斯溅射 对比学习 稀疏输入 3D一致性 动态化身调整 几何感知

📋 核心要点

  1. 现有方法在稀疏输入下难以保持3D一致性,导致人体化身细节重建质量下降,这是核心问题。
  2. CHASE通过跨姿势3D一致性监督和3D几何对比学习,利用动态化身调整模块,提升稀疏输入下的3D重建效果。
  3. 实验表明,CHASE在ZJU-MoCap和H36M数据集上,无论输入是否稀疏,均超越了现有技术水平,提升了渲染质量。

📝 摘要(中文)

现有的基于NeRF和3D高斯溅射(3DGS)的人体化身生成方法在保持3D一致性方面存在困难,并且细节重建质量下降,尤其是在使用稀疏输入进行训练时。为了解决这个问题,我们提出了CHASE,这是一个新颖的框架,它仅使用稀疏输入即可实现密集输入级别的性能,这归功于两项关键创新:跨姿势内在3D一致性监督和3D几何对比学习。在先前将刚性变形与非刚性服装动力学相结合的骨骼驱动方法的基础上,我们首先建立具有基本3D一致性的基线化身。为了增强稀疏输入下的3D一致性,我们引入了动态化身调整(DAA)模块,该模块通过利用训练集中相似的姿势来细化变形的高斯分布。通过最小化调整后的高斯分布和参考姿势之间的渲染差异,DAA为化身重建提供了额外的监督。我们还通过一种新颖的几何感知对比学习策略来保持全局3D一致性。虽然CHASE是为稀疏输入设计的,但它在ZJU-MoCap和H36M数据集上的完整和稀疏设置中均优于最先进的方法,这表明我们增强的3D一致性可带来卓越的渲染质量。

🔬 方法详解

问题定义:论文旨在解决在稀疏输入条件下,现有基于NeRF或3D高斯溅射的人体化身生成方法难以保持3D一致性,导致细节重建质量下降的问题。现有方法在稀疏视图下容易产生几何伪影,并且难以泛化到新的姿势。

核心思路:论文的核心思路是通过引入跨姿势的3D一致性监督和3D几何对比学习,来增强在稀疏输入下人体化身的3D一致性。通过动态调整高斯分布,并利用几何感知的对比学习,使得模型能够更好地理解和重建人体化身的3D结构。

技术框架:CHASE框架主要包含以下几个模块:1) 基于骨骼驱动的基线化身生成模块,用于建立具有基本3D一致性的初始模型;2) 动态化身调整(DAA)模块,通过利用训练集中相似的姿势来细化变形的高斯分布,增强局部一致性;3) 几何感知的对比学习模块,用于维护全局的3D一致性。

关键创新:论文的关键创新在于:1) 提出了动态化身调整(DAA)模块,能够根据相似姿势的信息来优化高斯分布,从而增强局部3D一致性;2) 引入了几何感知的对比学习策略,通过对比不同视角下的几何特征,来维护全局的3D一致性。这些创新使得CHASE能够在稀疏输入下实现高质量的人体化身重建。

关键设计:DAA模块的关键设计在于如何选择相似的姿势,以及如何融合这些姿势的信息来调整高斯分布。几何感知的对比学习的关键设计在于如何定义几何特征,以及如何构建正负样本对。损失函数包括渲染损失、DAA调整损失和对比学习损失。网络结构细节未知,但推测使用了类似Transformer的结构来学习姿势之间的关系。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CHASE在ZJU-MoCap和H36M数据集上进行了实验,结果表明,在稀疏输入设置下,CHASE显著优于现有的SOTA方法。即使在完整输入设置下,CHASE也能够取得与SOTA方法相当甚至更好的性能,证明了其增强3D一致性的有效性。具体性能数据未知,但摘要强调了其超越现有方法的结论。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、游戏开发、数字人等领域。高质量、3D一致的人体化身能够提升用户在虚拟环境中的沉浸感和交互体验。此外,该技术在远程会议、在线教育等场景中也具有潜在的应用价值,可以生成逼真的虚拟形象,增强沟通效果。

📄 摘要(原文)

Existing approaches for human avatar generation--both NeRF-based and 3D Gaussian Splatting (3DGS) based--struggle with maintaining 3D consistency and exhibit degraded detail reconstruction, particularly when training with sparse inputs. To address this challenge, we propose CHASE, a novel framework that achieves dense-input-level performance using only sparse inputs through two key innovations: cross-pose intrinsic 3D consistency supervision and 3D geometry contrastive learning. Building upon prior skeleton-driven approaches that combine rigid deformation with non-rigid cloth dynamics, we first establish baseline avatars with fundamental 3D consistency. To enhance 3D consistency under sparse inputs, we introduce a Dynamic Avatar Adjustment (DAA) module, which refines deformed Gaussians by leveraging similar poses from the training set. By minimizing the rendering discrepancy between adjusted Gaussians and reference poses, DAA provides additional supervision for avatar reconstruction. We further maintain global 3D consistency through a novel geometry-aware contrastive learning strategy. While designed for sparse inputs, CHASE surpasses state-of-the-art methods across both full and sparse settings on ZJU-MoCap and H36M datasets, demonstrating that our enhanced 3D consistency leads to superior rendering quality.