MOSS: Motion-based 3D Clothed Human Synthesis from Monocular Video

📄 arXiv: 2405.12806v3 📥 PDF

作者: Hongsheng Wang, Xiang Cai, Xi Sun, Jinhong Yue, Zhanyun Tang, Shengyu Zhang, Feng Lin, Fei Wu

分类: cs.CV

发布日期: 2024-05-21 (更新: 2024-06-22)

备注: arXiv admin note: text overlap with arXiv:1710.03746 by other authors

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出MOSS框架,利用运动信息从单目视频中合成逼真的3D服装人体模型

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 3D人体重建 服装建模 单目视频 运动感知 高斯溅射

📋 核心要点

  1. 现有单目视频服装人体重建方法忽略了人体运动对服装变形的影响,导致重建结果缺乏真实感和全局一致性。
  2. MOSS框架利用运动学信息,通过运动感知高斯分裂,将全局运动信息融入到人体表面重建中,从而提升服装变形的真实性。
  3. 实验结果表明,MOSS在3D服装人体合成方面取得了显著的视觉质量提升,LPIPS指标优于现有Human NeRF和高斯溅射方法。

📝 摘要(中文)

单视角服装人体重建在虚拟现实应用中占据核心地位,尤其是在涉及复杂人体运动的场景中。逼真的服装变形是一个显著的挑战。目前的方法通常忽略了运动对表面变形的影响,导致表面缺乏全局运动的约束。为了克服这些限制,我们引入了一个创新的框架,即基于运动的3D服装人体合成(MOSS),它采用运动学信息来实现人体表面上的运动感知高斯分裂。我们的框架由两个模块组成:运动学高斯定位溅射(KGAS)和表面变形检测器(UID)。KGAS结合了矩阵-费舍尔分布,以在身体表面传播全局运动。该分布的密度和旋转因子显式地控制高斯分布,从而增强了重建表面的真实感。此外,为了解决单视角中的局部遮挡问题,基于KGAS,UID识别重要表面,并执行几何重建以补偿这些变形。实验结果表明,MOSS在从单目视频中进行3D服装人体合成方面实现了最先进的视觉质量。值得注意的是,我们在LPIPS*指标上分别将Human NeRF和高斯溅射提高了33.94%和16.75%。

🔬 方法详解

问题定义:论文旨在解决从单目视频中重建具有逼真服装变形的3D人体模型的问题。现有方法,如Human NeRF和Gaussian Splatting,在处理复杂运动时,往往忽略了运动对服装表面变形的影响,导致重建的服装缺乏全局运动约束,真实感不足。尤其是在单视角下,局部遮挡问题更加剧了重建的难度。

核心思路:MOSS的核心思路是利用人体运动学信息来指导服装表面的重建。通过将全局运动信息融入到高斯分布的参数中,使得高斯分布能够更好地适应人体运动,从而更准确地捕捉服装的变形。此外,针对单视角下的遮挡问题,MOSS还引入了表面变形检测器,对重要表面进行几何重建,以补偿遮挡造成的损失。

技术框架:MOSS框架主要包含两个模块:Kinematic Gaussian Locating Splatting (KGAS) 和 Surface Deformation Detector (UID)。首先,KGAS模块利用矩阵-费舍尔分布来传播全局运动信息,并将其融入到高斯分布的密度和旋转因子中。然后,UID模块基于KGAS的结果,识别重要表面,并进行几何重建,以补偿单视角下的遮挡造成的变形。

关键创新:MOSS的关键创新在于将运动学信息融入到高斯分布中,从而实现了运动感知的服装表面重建。具体来说,通过矩阵-费舍尔分布来建模全局运动,并将其密度和旋转因子显式地控制高斯分布,使得高斯分布能够更好地适应人体运动,从而更准确地捕捉服装的变形。与现有方法相比,MOSS能够更好地利用运动信息,从而提升服装重建的真实感。

关键设计:KGAS模块中,矩阵-费舍尔分布的参数需要根据人体运动数据进行估计。UID模块中,重要表面的识别需要设计合适的指标来衡量表面的重要性。此外,几何重建的具体方法也需要根据实际情况进行选择。论文中可能使用了特定的损失函数来优化高斯分布的参数和几何重建的结果,但具体细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MOSS在单目视频3D服装人体合成任务上取得了显著的性能提升。实验结果表明,MOSS在LPIPS*指标上分别将Human NeRF和高斯溅射提高了33.94%和16.75%。这表明MOSS能够生成更加逼真和高质量的3D服装人体模型,尤其是在处理复杂运动时,优势更加明显。

🎯 应用场景

该研究成果可广泛应用于虚拟现实、增强现实、游戏、动画制作等领域。例如,可以用于创建逼真的虚拟化身,用于在线社交、远程协作等场景。此外,该技术还可以用于服装设计、虚拟试衣等应用,为用户提供更加个性化的体验。未来,该技术有望进一步发展,实现更加精细和实时的服装人体重建。

📄 摘要(原文)

Single-view clothed human reconstruction holds a central position in virtual reality applications, especially in contexts involving intricate human motions. It presents notable challenges in achieving realistic clothing deformation. Current methodologies often overlook the influence of motion on surface deformation, resulting in surfaces lacking the constraints imposed by global motion. To overcome these limitations, we introduce an innovative framework, Motion-Based 3D Clo}thed Humans Synthesis (MOSS), which employs kinematic information to achieve motion-aware Gaussian split on the human surface. Our framework consists of two modules: Kinematic Gaussian Locating Splatting (KGAS) and Surface Deformation Detector (UID). KGAS incorporates matrix-Fisher distribution to propagate global motion across the body surface. The density and rotation factors of this distribution explicitly control the Gaussians, thereby enhancing the realism of the reconstructed surface. Additionally, to address local occlusions in single-view, based on KGAS, UID identifies significant surfaces, and geometric reconstruction is performed to compensate for these deformations. Experimental results demonstrate that MOSS achieves state-of-the-art visual quality in 3D clothed human synthesis from monocular videos. Notably, we improve the Human NeRF and the Gaussian Splatting by 33.94% and 16.75% in LPIPS* respectively. Codes are available at https://wanghongsheng01.github.io/MOSS/.