RMAvatar: Photorealistic Human Avatar Reconstruction from Monocular Video Based on Rectified Mesh-embedded Gaussians

作者: Sen Peng, Weixing Xie, Zilong Wang, Xiaohu Guo, Zhonggui Chen, Baorong Yang, Xiao Dong

分类: cs.CV

发布日期: 2025-01-13

备注: CVM2025

💡 一句话要点

RMAvatar：基于校正网格嵌入高斯的单目视频逼真人像重建

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 人体化身重建 高斯溅射 网格嵌入 单目视频 非刚性形变

📋 核心要点

现有方法难以从单目视频中重建高质量、可控的人体化身，尤其是在处理复杂的非刚性形变时。
RMAvatar将高斯溅射嵌入到显式网格中，利用网格控制整体运动和形状，高斯溅射负责细节渲染。
实验表明，RMAvatar在公共数据集上实现了最先进的渲染质量和定量评估结果，显著提升了人像的真实感。

📝 摘要（中文）

本文提出RMAvatar，一种新颖的人像表示方法，它将高斯溅射嵌入到网格中，从而能够从单目视频中学习服装人像。该方法利用显式的网格几何体来表示虚拟人物的运动和形状，并使用高斯溅射进行隐式外观渲染。RMAvatar包含两个主要模块：高斯初始化模块和高斯校正模块。我们将高斯嵌入到三角形面中，并通过网格控制它们的运动，从而确保人像的低频运动和表面变形。由于线性混合蒙皮（LBS）公式的局限性，人体骨骼难以控制复杂的非刚性变换。因此，我们设计了一个与姿势相关的高斯校正模块，以学习精细的非刚性变形，进一步提高人像的真实感和表现力。在公共数据集上进行的大量实验表明，RMAvatar在渲染质量和定量评估方面均表现出最先进的性能。

🔬 方法详解

问题定义：从单目视频重建逼真的人体化身是一个具有挑战性的问题。现有方法在处理复杂的非刚性形变，如服装的褶皱和人物的精细表情时，往往难以达到令人满意的效果。线性混合蒙皮（LBS）作为一种常用的蒙皮技术，其表达能力有限，难以捕捉这些细节。

核心思路：RMAvatar的核心思路是将显式的网格几何体与隐式的高斯溅射相结合。网格负责控制人像的整体运动和形状，确保低频的形变，而高斯溅射则负责渲染精细的表面细节和外观。通过这种结合，RMAvatar能够同时捕捉到人像的整体结构和局部细节。

技术框架：RMAvatar的整体框架包含两个主要模块：高斯初始化模块和高斯校正模块。首先，高斯初始化模块将高斯粒子嵌入到三角网格的面片中，并利用网格的运动来驱动高斯粒子的运动。然后，高斯校正模块通过学习与姿势相关的形变，对高斯粒子的位置和属性进行校正，从而捕捉到更精细的非刚性形变。

关键创新：RMAvatar的关键创新在于将高斯溅射嵌入到网格中，并设计了姿势相关的高斯校正模块。这种方法充分利用了网格的几何先验和高斯溅射的渲染能力，从而能够重建出更加逼真的人体化身。与传统的基于网格或基于体素的方法相比，RMAvatar能够更好地处理复杂的非刚性形变。

关键设计：高斯校正模块是RMAvatar的关键组成部分。该模块通过一个神经网络来学习与姿势相关的形变场，该形变场用于校正高斯粒子的位置和属性。损失函数包括渲染损失、正则化损失等，用于约束高斯粒子的形状和外观。具体的网络结构和参数设置未知，需要参考论文原文。

🖼️ 关键图片

📊 实验亮点

RMAvatar在公共数据集上进行了广泛的实验，结果表明其在渲染质量和定量评估方面均优于现有方法。具体的性能数据和提升幅度未知，需要参考论文原文。实验结果表明，RMAvatar能够重建出更加逼真、细节丰富的人体化身。

🎯 应用场景

RMAvatar技术可应用于虚拟现实、增强现实、游戏、电影制作等领域。它可以用于创建逼真的虚拟人物，用于虚拟社交、远程协作、数字内容创作等。该技术还可以用于人体运动分析、服装设计等领域，具有广阔的应用前景。

📄 摘要（原文）

We introduce RMAvatar, a novel human avatar representation with Gaussian splatting embedded on mesh to learn clothed avatar from a monocular video. We utilize the explicit mesh geometry to represent motion and shape of a virtual human and implicit appearance rendering with Gaussian Splatting. Our method consists of two main modules: Gaussian initialization module and Gaussian rectification module. We embed Gaussians into triangular faces and control their motion through the mesh, which ensures low-frequency motion and surface deformation of the avatar. Due to the limitations of LBS formula, the human skeleton is hard to control complex non-rigid transformations. We then design a pose-related Gaussian rectification module to learn fine-detailed non-rigid deformations, further improving the realism and expressiveness of the avatar. We conduct extensive experiments on public datasets, RMAvatar shows state-of-the-art performance on both rendering quality and quantitative evaluations. Please see our project page at https://rm-avatar.github.io.

RMAvatar: Photorealistic Human Avatar Reconstruction from Monocular Video Based on Rectified Mesh-embedded Gaussians

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理