EfficientHuman: Efficient Training and Reconstruction of Moving Human using Articulated 2D Gaussian

📄 arXiv: 2504.20607v1 📥 PDF

作者: Hao Tian, Rui Liu, Wen Shen, Yilong Hu, Zhihao Zheng, Xiaolin Qin

分类: cs.CV

发布日期: 2025-04-29

备注: 11 pages, 3 figures

期刊: 2025 International Joint Conference on Neural Networks (IJCNN), Rome, Italy, 2025, IEEE

DOI: 10.1109/IJCNN64981.2025.11227948


💡 一句话要点

EfficientHuman:利用可变形2D高斯快速训练和重建运动人体

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 动态人体重建 3D高斯溅射 可变形2D高斯 线性混合蒙皮 姿势校准 新视角合成 人体建模

📋 核心要点

  1. 现有基于3D高斯溅射的人体重建方法难以有效拟合动态表面,存在多视角不一致和冗余高斯的问题,导致重建速度慢。
  2. EfficientHuman将高斯溅射编码为可变形2D高斯曲面元,通过线性混合蒙皮实现高效姿势转换,确保视角一致性并加速拟合。
  3. 实验表明,EfficientHuman在ZJU-MoCap数据集上实现了快速的3D动态人体重建,速度优于现有方法,并减少了冗余高斯数量。

📝 摘要(中文)

3D高斯溅射(3DGS)已被认为是场景重建和新视角合成中的一项开创性技术。最近利用3DGS重建3D人体的研究试图利用人体姿势的先验信息来提高渲染质量和训练速度。然而,由于多视角不一致和冗余高斯,它难以有效地拟合动态表面平面。这种不一致性是因为高斯椭球体不能准确地表示动态物体的表面,这阻碍了动态人体的快速重建。同时,冗余高斯的普遍存在意味着这些工作的训练时间对于快速拟合动态人体来说仍然不理想。为了解决这些问题,我们提出了EfficientHuman,该模型使用可变形2D高斯曲面元快速完成人体动态重建,同时确保高渲染质量。关键创新包括将高斯溅射编码为规范空间中的可变形2D高斯曲面元,然后通过线性混合蒙皮(LBS)将其转换为姿势空间,以实现高效的姿势转换。与3D高斯不同,可变形2D高斯曲面元可以快速适应动态人体,同时确保视角一致的几何体。此外,我们还引入了姿势校准模块和LBS优化模块,以实现动态人体姿势的精确拟合,从而提高模型的性能。在ZJU-MoCap数据集上的大量实验表明,EfficientHuman平均在不到一分钟的时间内实现了快速的3D动态人体重建,比当前最先进的方法快20秒,同时也减少了冗余高斯的数量。

🔬 方法详解

问题定义:现有基于3D高斯溅射的动态人体重建方法,由于3D高斯难以准确表示动态表面,导致多视角不一致,且存在大量冗余高斯,使得训练时间过长,无法快速重建动态人体。这些方法难以在保证渲染质量的同时,实现快速高效的动态人体重建。

核心思路:EfficientHuman的核心思路是将3D高斯溅射表示为规范空间中的可变形2D高斯曲面元,并利用线性混合蒙皮(LBS)将这些曲面元变换到姿势空间。这种方法使得高斯单元能够快速适应动态人体,同时保持视角一致性。通过在规范空间进行操作,避免了直接在3D空间中处理复杂形变带来的问题。

技术框架:EfficientHuman的整体框架包括以下几个主要模块:1) 可变形2D高斯曲面元表示:将3D高斯溅射转换为规范空间中的2D高斯曲面元。2) 线性混合蒙皮(LBS):利用LBS将规范空间中的2D高斯曲面元变换到姿势空间,实现姿势驱动的形变。3) 姿势校准模块:用于优化和校准人体姿势,提高重建精度。4) LBS优化模块:用于优化LBS的权重,进一步提升形变效果。整个流程首先在规范空间初始化高斯参数,然后通过LBS进行姿势变换,最后通过姿势校准和LBS优化模块进行精细调整。

关键创新:EfficientHuman的关键创新在于使用可变形2D高斯曲面元来表示人体表面,并结合线性混合蒙皮进行姿势变换。与直接使用3D高斯相比,2D高斯曲面元更容易适应动态表面,减少了多视角不一致的问题。同时,LBS的引入使得姿势变换更加高效,避免了复杂的非线性优化。这种方法在保证渲染质量的同时,显著提高了重建速度。

关键设计:EfficientHuman的关键设计包括:1) 2D高斯曲面元的参数化方式,需要仔细设计以保证其能够有效地表示人体表面。2) LBS权重的初始化和优化策略,直接影响形变效果。3) 姿势校准模块和LBS优化模块的具体实现方式,需要根据数据集和应用场景进行调整。论文中可能使用了特定的损失函数来优化这些参数,例如渲染损失、几何一致性损失等。具体的网络结构和参数设置需要在论文中查找。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

EfficientHuman在ZJU-MoCap数据集上实现了快速的3D动态人体重建,平均重建时间小于1分钟,比当前最先进的方法快20秒。同时,该方法还减少了冗余高斯的数量,提高了渲染效率。这些实验结果表明,EfficientHuman在动态人体重建方面具有显著的优势。

🎯 应用场景

EfficientHuman在虚拟现实、增强现实、游戏开发、电影制作等领域具有广泛的应用前景。它可以用于创建逼真的虚拟化身,实现实时的人体姿势捕捉和动画生成,以及进行高质量的动态人体重建。该技术还可以应用于运动分析、康复训练等领域,为相关研究提供技术支持。

📄 摘要(原文)

3D Gaussian Splatting (3DGS) has been recognized as a pioneering technique in scene reconstruction and novel view synthesis. Recent work on reconstructing the 3D human body using 3DGS attempts to leverage prior information on human pose to enhance rendering quality and improve training speed. However, it struggles to effectively fit dynamic surface planes due to multi-view inconsistency and redundant Gaussians. This inconsistency arises because Gaussian ellipsoids cannot accurately represent the surfaces of dynamic objects, which hinders the rapid reconstruction of the dynamic human body. Meanwhile, the prevalence of redundant Gaussians means that the training time of these works is still not ideal for quickly fitting a dynamic human body. To address these, we propose EfficientHuman, a model that quickly accomplishes the dynamic reconstruction of the human body using Articulated 2D Gaussian while ensuring high rendering quality. The key innovation involves encoding Gaussian splats as Articulated 2D Gaussian surfels in canonical space and then transforming them to pose space via Linear Blend Skinning (LBS) to achieve efficient pose transformations. Unlike 3D Gaussians, Articulated 2D Gaussian surfels can quickly conform to the dynamic human body while ensuring view-consistent geometries. Additionally, we introduce a pose calibration module and an LBS optimization module to achieve precise fitting of dynamic human poses, enhancing the model's performance. Extensive experiments on the ZJU-MoCap dataset demonstrate that EfficientHuman achieves rapid 3D dynamic human reconstruction in less than a minute on average, which is 20 seconds faster than the current state-of-the-art method, while also reducing the number of redundant Gaussians.