CLOTH-HUGS: Cloth Aware Human Gaussian Splatting

📄 arXiv: 2604.15875v1 📥 PDF

作者: Sadia Mubashshira, Nazanin Amini, Kevin Desai

分类: cs.CV

发布日期: 2026-04-17


💡 一句话要点

Cloth-HUGS:基于高斯溅射的服装感知人体重建,解耦身体与服装

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 神经渲染 高斯溅射 服装建模 人体重建 解耦表示

📋 核心要点

  1. 现有方法难以处理服装的复杂变形和与身体的交互,通常将服装简化为身体的一部分,导致重建质量下降。
  2. Cloth-HUGS将人体和服装解耦,分别用高斯分布表示,并在规范空间中进行联合优化,从而更好地捕捉服装的细节。
  3. 实验表明,Cloth-HUGS在感知质量和几何保真度上显著优于现有方法,LPIPS降低高达28%,并能实现实时渲染。

📝 摘要(中文)

本文提出Cloth-HUGS,一个基于高斯溅射的神经渲染框架,用于逼真的服装人体重建,它显式地解耦了身体和服装。与先前将服装吸收到单一身体表示中,难以处理宽松服装和复杂变形的方法不同,Cloth-HUGS在共享的规范空间内使用单独的高斯层表示表演者身体和服装。规范体共同编码身体、服装和场景图元,并通过SMPL驱动的蒙皮动画和学习的线性混合蒙皮权重进行变形。为了提高服装的真实感,我们从网格拓扑初始化服装高斯分布,并应用受物理启发的约束,包括模拟一致性、ARAP正则化和掩码监督。我们进一步引入了一种深度感知的多通道渲染策略,用于稳健的身体-服装-场景合成,从而实现超过60 FPS的实时渲染。在多个基准测试上的实验表明,Cloth-HUGS在感知质量和几何保真度方面优于最先进的基线,LPIPS降低高达28%,同时产生时间上连贯的服装动态。

🔬 方法详解

问题定义:现有基于神经渲染的人体重建方法,特别是基于高斯溅射的方法,在处理穿着服装的人体时,通常将服装吸收到单一的身体表示中。这导致难以处理宽松的服装、复杂的褶皱和服装与身体之间的交互,重建质量受到限制。因此,如何准确且高效地重建穿着服装的人体,特别是捕捉服装的动态和细节,是一个重要的挑战。

核心思路:Cloth-HUGS的核心思路是将人体和服装解耦,分别用高斯分布表示,并在一个共享的规范空间中进行联合优化。通过这种方式,可以更精细地控制服装的形状和动态,并更好地捕捉服装与身体之间的交互。此外,利用物理启发的约束来提高服装的真实感。

技术框架:Cloth-HUGS的整体框架包括以下几个主要模块:1) 规范空间建模:在规范空间中,使用高斯分布分别表示身体、服装和场景。2) SMPL驱动的蒙皮动画:利用SMPL模型驱动身体的运动,并通过学习的线性混合蒙皮权重将运动传递到服装。3) 物理启发的约束:应用模拟一致性、ARAP正则化和掩码监督等约束,提高服装的真实感。4) 深度感知的多通道渲染:使用深度信息进行身体、服装和场景的合成,实现高质量的渲染。

关键创新:Cloth-HUGS的关键创新在于:1) 将人体和服装解耦,分别用高斯分布表示。2) 引入物理启发的约束,提高服装的真实感。3) 提出深度感知的多通道渲染策略,实现高质量的合成。与现有方法相比,Cloth-HUGS能够更好地捕捉服装的细节和动态,从而实现更逼真的人体重建。

关键设计:在规范空间建模中,服装高斯分布的初始化来自网格拓扑结构。物理启发的约束包括:模拟一致性损失,鼓励服装的运动与物理模拟一致;ARAP正则化,保持服装的形状;掩码监督,确保服装的渲染结果与真实图像一致。深度感知的多通道渲染利用深度信息对身体、服装和场景进行排序和合成,避免渲染伪影。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Cloth-HUGS在多个基准测试上取得了显著的性能提升。与最先进的基线方法相比,Cloth-HUGS的LPIPS指标降低高达28%,表明其在感知质量方面有显著优势。此外,Cloth-HUGS能够实现超过60 FPS的实时渲染,使其能够应用于交互式应用场景。实验结果表明,Cloth-HUGS在几何保真度和时间一致性方面也优于现有方法。

🎯 应用场景

Cloth-HUGS在虚拟现实、增强现实、游戏开发、电影制作等领域具有广泛的应用前景。它可以用于创建逼真的虚拟化身,模拟服装的动态效果,以及实现高质量的远程呈现。此外,该技术还可以应用于服装设计和虚拟试穿等领域,为用户提供更便捷的购物体验。

📄 摘要(原文)

We present Cloth-HUGS, a Gaussian Splatting based neural rendering framework for photorealistic clothed human reconstruction that explicitly disentangles body and clothing. Unlike prior methods that absorb clothing into a single body representation and struggle with loose garments and complex deformations, Cloth-HUGS represents the performer using separate Gaussian layers for body and cloth within a shared canonical space. The canonical volume jointly encodes body, cloth, and scene primitives and is deformed through SMPL-driven articulation with learned linear blend skinning weights. To improve cloth realism, we initialize cloth Gaussians from mesh topology and apply physics-inspired constraints, including simulation-consistency, ARAP regularization, and mask supervision. We further introduce a depth-aware multi-pass rendering strategy for robust body-cloth-scene compositing, enabling real-time rendering at over 60 FPS. Experiments on multiple benchmarks show that Cloth-HUGS improves perceptual quality and geometric fidelity over state-of-the-art baselines, reducing LPIPS by up to 28% while producing temporally coherent cloth dynamics.