Topology-aware Human Avatars with Semantically-guided Gaussian Splatting

📄 arXiv: 2408.09665v2 📥 PDF

作者: Haoyu Zhao, Chen Yang, Hao Wang, Xingyue Zhao, Wei Shen

分类: cs.CV

发布日期: 2024-08-19 (更新: 2024-11-19)


💡 一句话要点

提出SG-GS,利用语义引导的高斯溅射重建拓扑感知的人体Avatar

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 人体Avatar重建 3D高斯溅射 语义引导 拓扑感知 单目视频 人体建模

📋 核心要点

  1. 现有方法忽略了人体语义信息,无法实现人体Avatar的精细重建,尤其是在拓扑结构和内在结构方面。
  2. SG-GS方法利用语义嵌入的3D高斯、骨骼驱动的刚性形变和非刚性服装动力学形变来创建逼真的人体Avatar。
  3. 实验结果表明,SG-GS在几何和外观重建性能上达到了当前最优水平,显著提升了Avatar的真实感。

📝 摘要(中文)

本文提出了一种名为SG-GS的方法,旨在从单目视频中重建照片级真实且拓扑感知的可动画人体Avatar。现有方法忽略了人体语义信息在人体拓扑和内在结构中的关键作用,导致无法实现人体Avatar的精细重建。SG-GS利用语义嵌入的3D高斯、骨骼驱动的刚性形变和非刚性服装动力学形变来创建照片级真实的人体Avatar。此外,本文设计了一个语义人体标注器(SHA),它利用SMPL的语义先验进行高效的身体部位语义标注。生成的标签用于指导高斯语义属性的优化。为了捕捉人体显式的拓扑结构,本文采用了一个3D网络,该网络集成了拓扑和几何关联用于人体Avatar的形变。最后,本文实现了三个关键策略来提高3D高斯的语义精度和渲染质量:带有2D正则化的语义投影、语义引导的密度正则化以及具有邻域一致性的语义感知正则化。大量实验表明,SG-GS实现了最先进的几何和外观重建性能。

🔬 方法详解

问题定义:论文旨在解决从单目视频中重建高质量、拓扑感知且可动画的人体Avatar的问题。现有基于3D高斯的方法虽然优化和渲染速度快,但忽略了人体语义信息,导致重建的Avatar在细节和拓扑结构上存在缺陷,无法满足高质量应用的需求。

核心思路:论文的核心思路是将人体语义信息融入到3D高斯表示中,利用语义信息指导高斯参数的优化,从而更好地捕捉人体的拓扑结构和内在几何信息。同时,结合骨骼驱动的刚性形变和非刚性服装动力学形变,进一步提升Avatar的真实感和可控性。

技术框架:SG-GS方法主要包含以下几个模块:1) 语义人体标注器(SHA):利用SMPL先验进行身体部位的语义标注。2) 语义嵌入的3D高斯表示:将语义信息嵌入到3D高斯中。3) 拓扑感知的形变网络:结合拓扑和几何关联进行Avatar形变。4) 语义感知的正则化策略:包括语义投影、密度正则化和邻域一致性正则化,用于提高语义精度和渲染质量。整体流程是从单目视频中提取图像特征,利用SHA进行语义标注,然后优化语义嵌入的3D高斯参数,最后通过形变网络和渲染模块生成最终的Avatar。

关键创新:论文的关键创新在于:1) 将人体语义信息显式地融入到3D高斯表示中,克服了传统方法忽略语义信息的缺陷。2) 设计了拓扑感知的形变网络,能够更好地捕捉人体的拓扑结构。3) 提出了多种语义感知的正则化策略,有效提高了语义精度和渲染质量。与现有方法相比,SG-GS能够生成更逼真、细节更丰富的人体Avatar。

关键设计:SHA利用SMPL模型提供的语义先验知识,对输入的单目视频进行身体部位的自动标注,生成每个像素的语义标签。语义嵌入的3D高斯表示通过在高斯参数中增加语义属性来实现。拓扑感知的形变网络采用3D卷积神经网络,输入是高斯参数和骨骼姿态,输出是形变后的高斯参数。语义感知的正则化策略包括:语义投影(将3D语义投影到2D图像空间,并与2D语义标签进行约束)、密度正则化(鼓励属于同一语义区域的高斯具有相似的密度)和邻域一致性正则化(鼓励相邻高斯具有相似的语义标签)。损失函数包括渲染损失、语义损失和正则化损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SG-GS在几何和外观重建性能上均优于现有方法。具体而言,在多个公开数据集上,SG-GS的重建精度指标(如PSNR、SSIM、LPIPS)均取得了显著提升,尤其是在细节和拓扑结构方面。与基线方法相比,SG-GS能够生成更逼真、细节更丰富的人体Avatar。

🎯 应用场景

该研究成果可广泛应用于虚拟现实、增强现实、游戏开发、电影制作等领域。例如,可以用于创建高度逼真的虚拟化身,提升用户在虚拟环境中的沉浸感。此外,该技术还可以用于服装设计、人体姿态估计、动作捕捉等领域,具有重要的实际应用价值和广阔的发展前景。

📄 摘要(原文)

Reconstructing photo-realistic and topology-aware animatable human avatars from monocular videos remains challenging in computer vision and graphics. Recently, methods using 3D Gaussians to represent the human body have emerged, offering faster optimization and real-time rendering. However, due to ignoring the crucial role of human body semantic information which represents the explicit topological and intrinsic structure within human body, they fail to achieve fine-detail reconstruction of human avatars. To address this issue, we propose SG-GS, which uses semantics-embedded 3D Gaussians, skeleton-driven rigid deformation, and non-rigid cloth dynamics deformation to create photo-realistic human avatars. We then design a Semantic Human-Body Annotator (SHA) which utilizes SMPL's semantic prior for efficient body part semantic labeling. The generated labels are used to guide the optimization of semantic attributes of Gaussian. To capture the explicit topological structure of the human body, we employ a 3D network that integrates both topological and geometric associations for human avatar deformation. We further implement three key strategies to enhance the semantic accuracy of 3D Gaussians and rendering quality: semantic projection with 2D regularization, semantic-guided density regularization and semantic-aware regularization with neighborhood consistency. Extensive experiments demonstrate that SG-GS achieves state-of-the-art geometry and appearance reconstruction performance.