ETCH-X: Robustify Expressive Body Fitting to Clothed Humans with Composable Datasets
作者: Xiaoben Li, Jingyi Wu, Zeyu Cai, Yu Siyuan, Boqian Li, Yuliang Xiu
分类: cs.CV
发布日期: 2026-04-09
备注: Page: https://xiaobenli00.github.io/ETCH-X/, Code: https://github.com/XiaobenLi00/ETCH-X
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
ETCH-X:通过可组合数据集增强服装人体模型的鲁棒性和表达性
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: 人体模型拟合 服装人体 SMPL-X 鲁棒性 表达性 深度学习 三维重建
📋 核心要点
- 现有服装人体模型拟合方法难以兼顾局部细节表达和全局鲁棒性,对服装动态、姿势变化和数据缺失敏感。
- ETCH-X通过紧密度感知拟合过滤服装动态,利用SMPL-X增强表达性,并采用隐式密集对应关系提升鲁棒性。
- 实验表明,ETCH-X在已见和未见数据集上均显著优于ETCH,提升了服装泛化和姿势鲁棒性。
📝 摘要(中文)
人体模型拟合是将参数化人体模型(如SMPL)与服装人体3D点云对齐的关键步骤,为动画和纹理生成等下游任务奠定基础。有效的拟合方法应兼具局部表达性(捕捉手和面部特征等细节)和全局鲁棒性(处理服装动态、姿势变化以及噪声或不完整输入等实际挑战)。现有方法通常只擅长一方面,缺乏一体化解决方案。本文将ETCH升级为ETCH-X,利用紧密度感知拟合范式过滤服装动态(“脱衣”),通过SMPL-X扩展表达性,并用隐式密集对应关系(“密集拟合”)取代显式稀疏标记(对部分数据高度敏感),以实现更鲁棒和精细的人体拟合。解耦的“脱衣”和“密集拟合”模块化阶段支持在可组合数据源(包括各种模拟服装CLOTH3D、大规模全身运动AMASS和精细手势InterHand2.6M)上进行独立且可扩展的训练,从而提高服装泛化能力以及身体和手的姿势鲁棒性。该方法在各种服装、姿势和输入完整性水平下实现了鲁棒且富有表现力的拟合,在已见数据(如4D-Dress和CAPE)和未见数据(如BEDLAM2.0)上均实现了相对于ETCH的显著性能提升。
🔬 方法详解
问题定义:论文旨在解决服装人体模型拟合中,现有方法难以同时保证局部表达性和全局鲁棒性的问题。现有方法对服装动态、姿势变化以及数据不完整性非常敏感,导致拟合精度和泛化能力不足。
核心思路:论文的核心思路是将服装动态过滤(“脱衣”)和密集人体拟合解耦,分别进行优化。通过“脱衣”阶段减少服装的影响,然后利用密集对应关系进行精细的人体拟合,从而提高鲁棒性和表达性。这种解耦的设计允许在不同的数据集上独立训练各个模块,提高泛化能力。
技术框架:ETCH-X的整体框架包含两个主要阶段:1) “脱衣”阶段:利用紧密度感知拟合范式,过滤服装带来的影响,估计人体在服装下的形状。2) “密集拟合”阶段:使用SMPL-X模型,通过隐式密集对应关系,将3D点云拟合到人体模型,捕捉精细的身体细节,如手和面部特征。这两个阶段可以独立训练,并组合使用。
关键创新:ETCH-X的关键创新在于:1) 提出了一种紧密度感知的“脱衣”方法,有效减少了服装动态对拟合的影响。2) 使用隐式密集对应关系取代了显式稀疏标记,提高了对部分数据的鲁棒性。3) 将“脱衣”和“密集拟合”解耦,实现了在可组合数据集上的独立训练,提高了泛化能力。
关键设计:在“脱衣”阶段,论文设计了一种基于紧密度的损失函数,鼓励模型学习人体在服装下的形状。在“密集拟合”阶段,使用了SMPL-X模型,并设计了一种基于密集对应关系的损失函数,鼓励模型学习精细的身体细节。此外,论文还使用了多种数据增强技术,提高模型的鲁棒性。
🖼️ 关键图片
📊 实验亮点
ETCH-X在4D-Dress数据集上,MPJPE-All指标提升了33.0%,在CAPE数据集上,V2V-Hands指标提升了35.8%。在更具挑战性的未见数据集BEDLAM2.0上,MPJPE-All指标提升了80.8%,V2V-All指标提升了80.5%。这些结果表明,ETCH-X在鲁棒性和表达性方面均优于现有方法。
🎯 应用场景
ETCH-X可应用于虚拟现实、增强现实、游戏、动画制作、服装设计等领域。该方法能够准确地将人体模型拟合到穿着服装的人体3D扫描数据,为后续的动画、纹理生成、虚拟试衣等应用提供高质量的基础。未来,该技术有望应用于智能服装定制、个性化虚拟形象生成等领域。
📄 摘要(原文)
Human body fitting, which aligns parametric body models such as SMPL to raw 3D point clouds of clothed humans, serves as a crucial first step for downstream tasks like animation and texturing. An effective fitting method should be both locally expressive-capturing fine details such as hands and facial features-and globally robust to handle real-world challenges, including clothing dynamics, pose variations, and noisy or partial inputs. Existing approaches typically excel in only one aspect, lacking an all-in-one solution.We upgrade ETCH to ETCH-X, which leverages a tightness-aware fitting paradigm to filter out clothing dynamics ("undress"), extends expressiveness with SMPL-X, and replaces explicit sparse markers (which are highly sensitive to partial data) with implicit dense correspondences ("dense fit") for more robust and fine-grained body fitting. Our disentangled "undress" and "dense fit" modular stages enable separate and scalable training on composable data sources, including diverse simulated garments (CLOTH3D), large-scale full-body motions (AMASS), and fine-grained hand gestures (InterHand2.6M), improving outfit generalization and pose robustness of both bodies and hands. Our approach achieves robust and expressive fitting across diverse clothing, poses, and levels of input completeness, delivering a substantial performance improvement over ETCH on both: 1) seen data, such as 4D-Dress (MPJPE-All, 33.0% ) and CAPE (V2V-Hands, 35.8% ), and 2) unseen data, such as BEDLAM2.0 (MPJPE-All, 80.8% ; V2V-All, 80.5% ). Code and models will be released at https://xiaobenli00.github.io/ETCH-X/.