CLOTH-HUGS: Cloth Aware Human Gaussian Splatting

作者: Sadia Mubashshira, Nazanin Amini, Kevin Desai

分类: cs.CV

发布日期: 2026-04-17

💡 一句话要点

Cloth-HUGS：基于高斯溅射的服装感知人体重建，解耦身体与服装

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱六：视频提取与匹配 (Video Extraction)

关键词: 神经渲染 高斯溅射 服装建模 人体重建 解耦表示

📋 核心要点

现有方法难以处理服装的复杂变形和与身体的交互，通常将服装简化为身体的一部分，导致重建质量下降。
Cloth-HUGS将人体和服装解耦，分别用高斯分布表示，并在规范空间中进行联合优化，从而更好地捕捉服装的细节。
实验表明，Cloth-HUGS在感知质量和几何保真度上显著优于现有方法，LPIPS降低高达28%，并能实现实时渲染。

📝 摘要（中文）

本文提出Cloth-HUGS，一个基于高斯溅射的神经渲染框架，用于逼真的服装人体重建，它显式地解耦了身体和服装。与先前将服装吸收到单一身体表示中，难以处理宽松服装和复杂变形的方法不同，Cloth-HUGS在共享的规范空间内使用单独的高斯层表示表演者身体和服装。规范体共同编码身体、服装和场景图元，并通过SMPL驱动的蒙皮动画和学习的线性混合蒙皮权重进行变形。为了提高服装的真实感，我们从网格拓扑初始化服装高斯分布，并应用受物理启发的约束，包括模拟一致性、ARAP正则化和掩码监督。我们进一步引入了一种深度感知的多通道渲染策略，用于稳健的身体-服装-场景合成，从而实现超过60 FPS的实时渲染。在多个基准测试上的实验表明，Cloth-HUGS在感知质量和几何保真度方面优于最先进的基线，LPIPS降低高达28%，同时产生时间上连贯的服装动态。

🔬 方法详解

问题定义：现有基于神经渲染的人体重建方法，特别是基于高斯溅射的方法，在处理穿着服装的人体时，通常将服装吸收到单一的身体表示中。这导致难以处理宽松的服装、复杂的褶皱和服装与身体之间的交互，重建质量受到限制。因此，如何准确且高效地重建穿着服装的人体，特别是捕捉服装的动态和细节，是一个重要的挑战。

核心思路：Cloth-HUGS的核心思路是将人体和服装解耦，分别用高斯分布表示，并在一个共享的规范空间中进行联合优化。通过这种方式，可以更精细地控制服装的形状和动态，并更好地捕捉服装与身体之间的交互。此外，利用物理启发的约束来提高服装的真实感。

技术框架：Cloth-HUGS的整体框架包括以下几个主要模块：1) 规范空间建模：在规范空间中，使用高斯分布分别表示身体、服装和场景。2) SMPL驱动的蒙皮动画：利用SMPL模型驱动身体的运动，并通过学习的线性混合蒙皮权重将运动传递到服装。3) 物理启发的约束：应用模拟一致性、ARAP正则化和掩码监督等约束，提高服装的真实感。4) 深度感知的多通道渲染：使用深度信息进行身体、服装和场景的合成，实现高质量的渲染。

关键创新：Cloth-HUGS的关键创新在于：1) 将人体和服装解耦，分别用高斯分布表示。2) 引入物理启发的约束，提高服装的真实感。3) 提出深度感知的多通道渲染策略，实现高质量的合成。与现有方法相比，Cloth-HUGS能够更好地捕捉服装的细节和动态，从而实现更逼真的人体重建。

关键设计：在规范空间建模中，服装高斯分布的初始化来自网格拓扑结构。物理启发的约束包括：模拟一致性损失，鼓励服装的运动与物理模拟一致；ARAP正则化，保持服装的形状；掩码监督，确保服装的渲染结果与真实图像一致。深度感知的多通道渲染利用深度信息对身体、服装和场景进行排序和合成，避免渲染伪影。

🖼️ 关键图片

📊 实验亮点

Cloth-HUGS在多个基准测试上取得了显著的性能提升。与最先进的基线方法相比，Cloth-HUGS的LPIPS指标降低高达28%，表明其在感知质量方面有显著优势。此外，Cloth-HUGS能够实现超过60 FPS的实时渲染，使其能够应用于交互式应用场景。实验结果表明，Cloth-HUGS在几何保真度和时间一致性方面也优于现有方法。

🎯 应用场景

Cloth-HUGS在虚拟现实、增强现实、游戏开发、电影制作等领域具有广泛的应用前景。它可以用于创建逼真的虚拟化身，模拟服装的动态效果，以及实现高质量的远程呈现。此外，该技术还可以应用于服装设计和虚拟试穿等领域，为用户提供更便捷的购物体验。

📄 摘要（原文）

We present Cloth-HUGS, a Gaussian Splatting based neural rendering framework for photorealistic clothed human reconstruction that explicitly disentangles body and clothing. Unlike prior methods that absorb clothing into a single body representation and struggle with loose garments and complex deformations, Cloth-HUGS represents the performer using separate Gaussian layers for body and cloth within a shared canonical space. The canonical volume jointly encodes body, cloth, and scene primitives and is deformed through SMPL-driven articulation with learned linear blend skinning weights. To improve cloth realism, we initialize cloth Gaussians from mesh topology and apply physics-inspired constraints, including simulation-consistency, ARAP regularization, and mask supervision. We further introduce a depth-aware multi-pass rendering strategy for robust body-cloth-scene compositing, enabling real-time rendering at over 60 FPS. Experiments on multiple benchmarks show that Cloth-HUGS improves perceptual quality and geometric fidelity over state-of-the-art baselines, reducing LPIPS by up to 28% while producing temporally coherent cloth dynamics.

CLOTH-HUGS: Cloth Aware Human Gaussian Splatting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理