RMAvatar: Photorealistic Human Avatar Reconstruction from Monocular Video Based on Rectified Mesh-embedded Gaussians

📄 arXiv: 2501.07104v1 📥 PDF

作者: Sen Peng, Weixing Xie, Zilong Wang, Xiaohu Guo, Zhonggui Chen, Baorong Yang, Xiao Dong

分类: cs.CV

发布日期: 2025-01-13

备注: CVM2025


💡 一句话要点

RMAvatar:基于校正网格嵌入高斯的单目视频逼真人像重建

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 人体化身重建 高斯溅射 网格嵌入 单目视频 非刚性形变

📋 核心要点

  1. 现有方法难以从单目视频中重建高质量、可控的人体化身,尤其是在处理复杂的非刚性形变时。
  2. RMAvatar将高斯溅射嵌入到显式网格中,利用网格控制整体运动和形状,高斯溅射负责细节渲染。
  3. 实验表明,RMAvatar在公共数据集上实现了最先进的渲染质量和定量评估结果,显著提升了人像的真实感。

📝 摘要(中文)

本文提出RMAvatar,一种新颖的人像表示方法,它将高斯溅射嵌入到网格中,从而能够从单目视频中学习服装人像。该方法利用显式的网格几何体来表示虚拟人物的运动和形状,并使用高斯溅射进行隐式外观渲染。RMAvatar包含两个主要模块:高斯初始化模块和高斯校正模块。我们将高斯嵌入到三角形面中,并通过网格控制它们的运动,从而确保人像的低频运动和表面变形。由于线性混合蒙皮(LBS)公式的局限性,人体骨骼难以控制复杂的非刚性变换。因此,我们设计了一个与姿势相关的高斯校正模块,以学习精细的非刚性变形,进一步提高人像的真实感和表现力。在公共数据集上进行的大量实验表明,RMAvatar在渲染质量和定量评估方面均表现出最先进的性能。

🔬 方法详解

问题定义:从单目视频重建逼真的人体化身是一个具有挑战性的问题。现有方法在处理复杂的非刚性形变,如服装的褶皱和人物的精细表情时,往往难以达到令人满意的效果。线性混合蒙皮(LBS)作为一种常用的蒙皮技术,其表达能力有限,难以捕捉这些细节。

核心思路:RMAvatar的核心思路是将显式的网格几何体与隐式的高斯溅射相结合。网格负责控制人像的整体运动和形状,确保低频的形变,而高斯溅射则负责渲染精细的表面细节和外观。通过这种结合,RMAvatar能够同时捕捉到人像的整体结构和局部细节。

技术框架:RMAvatar的整体框架包含两个主要模块:高斯初始化模块和高斯校正模块。首先,高斯初始化模块将高斯粒子嵌入到三角网格的面片中,并利用网格的运动来驱动高斯粒子的运动。然后,高斯校正模块通过学习与姿势相关的形变,对高斯粒子的位置和属性进行校正,从而捕捉到更精细的非刚性形变。

关键创新:RMAvatar的关键创新在于将高斯溅射嵌入到网格中,并设计了姿势相关的高斯校正模块。这种方法充分利用了网格的几何先验和高斯溅射的渲染能力,从而能够重建出更加逼真的人体化身。与传统的基于网格或基于体素的方法相比,RMAvatar能够更好地处理复杂的非刚性形变。

关键设计:高斯校正模块是RMAvatar的关键组成部分。该模块通过一个神经网络来学习与姿势相关的形变场,该形变场用于校正高斯粒子的位置和属性。损失函数包括渲染损失、正则化损失等,用于约束高斯粒子的形状和外观。具体的网络结构和参数设置未知,需要参考论文原文。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RMAvatar在公共数据集上进行了广泛的实验,结果表明其在渲染质量和定量评估方面均优于现有方法。具体的性能数据和提升幅度未知,需要参考论文原文。实验结果表明,RMAvatar能够重建出更加逼真、细节丰富的人体化身。

🎯 应用场景

RMAvatar技术可应用于虚拟现实、增强现实、游戏、电影制作等领域。它可以用于创建逼真的虚拟人物,用于虚拟社交、远程协作、数字内容创作等。该技术还可以用于人体运动分析、服装设计等领域,具有广阔的应用前景。

📄 摘要(原文)

We introduce RMAvatar, a novel human avatar representation with Gaussian splatting embedded on mesh to learn clothed avatar from a monocular video. We utilize the explicit mesh geometry to represent motion and shape of a virtual human and implicit appearance rendering with Gaussian Splatting. Our method consists of two main modules: Gaussian initialization module and Gaussian rectification module. We embed Gaussians into triangular faces and control their motion through the mesh, which ensures low-frequency motion and surface deformation of the avatar. Due to the limitations of LBS formula, the human skeleton is hard to control complex non-rigid transformations. We then design a pose-related Gaussian rectification module to learn fine-detailed non-rigid deformations, further improving the realism and expressiveness of the avatar. We conduct extensive experiments on public datasets, RMAvatar shows state-of-the-art performance on both rendering quality and quantitative evaluations. Please see our project page at https://rm-avatar.github.io.