Open-Vocabulary Semantic Part Segmentation of 3D Human

📄 arXiv: 2502.19782v1 📥 PDF

作者: Keito Suzuki, Bang Du, Girish Krishnan, Kunyao Chen, Runfa Blark Li, Truong Nguyen

分类: cs.CV

发布日期: 2025-02-27

备注: 3DV 2025


💡 一句话要点

提出HumanCLIP模型和MaskFusion模块,实现三维人体开放词汇语义部件分割。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 三维人体分割 开放词汇分割 视觉-语言模型 多视角融合 HumanCLIP MaskFusion 语义部件分割

📋 核心要点

  1. 现有三维部件分割方法在处理三维人体时泛化性不足,尤其是在开放词汇场景下,缺乏对细粒度人体部件的有效分割。
  2. 提出HumanCLIP模型,专门为人体内容生成更精确的视觉-文本嵌入,并结合MaskFusion模块实现多视角特征融合。
  3. 实验结果表明,该方法在三维人体数据集上显著优于现有开放词汇三维分割方法,且能应用于多种三维表示。

📝 摘要(中文)

三维部件分割是三维视觉和AR/VR领域中的一个开放问题。由于三维标注数据的限制,传统的监督分割方法在泛化到未见过的形状和类别时表现不佳。最近,视觉-语言模型零样本能力的进步推动了开放世界三维分割方法的发展。虽然这些方法在三维场景或物体上显示出不错的结果,但它们在三维人体上泛化能力较差。本文提出了一种能够处理三维人体的开放词汇分割方法。我们的框架能够根据文本提示将人体分割成所需细粒度的部件。我们设计了一个简单的分割流程,利用SAM生成二维多视角提议,并提出了一种新的HumanCLIP模型来创建视觉和文本输入的统一嵌入。与现有的预训练CLIP模型相比,HumanCLIP模型为以人为中心的内容产生更准确的嵌入。我们还设计了一个简单而有效的MaskFusion模块,该模块将多视角特征分类并融合到三维语义掩码中,而无需复杂的投票和分组机制。解耦掩码提议和文本输入的设计也显著提高了每次提示的推理效率。在各种三维人体数据集上的实验结果表明,我们的方法大大优于当前最先进的开放词汇三维分割方法。此外,我们表明我们的方法可以直接应用于各种三维表示,包括网格、点云和三维高斯溅射。

🔬 方法详解

问题定义:现有三维部件分割方法,特别是基于开放词汇的方法,在处理三维人体时存在泛化性问题。由于缺乏针对人体优化的视觉-语言模型,以及难以有效融合多视角信息,现有方法无法准确分割细粒度的人体部件。

核心思路:本文的核心思路是设计一个专门针对三维人体的开放词汇分割框架,通过优化视觉-语言嵌入和多视角特征融合来提高分割精度。具体来说,通过训练HumanCLIP模型来提升人体相关视觉和文本特征的对齐,并使用MaskFusion模块来有效融合多视角分割结果。

技术框架:该框架主要包含三个阶段:1) 使用SAM(Segment Anything Model)生成二维多视角掩码提议;2) 使用HumanCLIP模型提取视觉和文本特征,并计算相似度;3) 使用MaskFusion模块将多视角特征融合为三维语义掩码。整个流程解耦了掩码提议和文本输入,提高了推理效率。

关键创新:主要创新点在于HumanCLIP模型和MaskFusion模块的设计。HumanCLIP模型通过在人体数据集上进行微调,显著提升了视觉和文本嵌入对人体内容的表征能力。MaskFusion模块则采用了一种简单而有效的策略,避免了复杂的投票或分组机制,实现了高效的多视角特征融合。

关键设计:HumanCLIP模型可能采用了对比学习损失函数,以拉近人体相关的视觉和文本特征。MaskFusion模块的具体实现细节未知,但可能涉及注意力机制或加权平均等方法来融合不同视角的特征。具体的网络结构和参数设置在论文中应该有详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在多个三维人体数据集上显著优于现有的开放词汇三维分割方法。具体的性能提升幅度未知,但摘要中强调了“a large margin”,表明性能提升较为显著。此外,该方法还展示了对不同三维表示(网格、点云、三维高斯溅射)的通用性。

🎯 应用场景

该研究成果可应用于虚拟现实/增强现实(VR/AR)中的人体建模与交互、虚拟试衣、游戏角色定制、以及医疗康复等领域。通过精确分割人体部件,可以实现更自然、更逼真的人机交互体验,并为相关应用提供更精细的三维人体模型。

📄 摘要(原文)

3D part segmentation is still an open problem in the field of 3D vision and AR/VR. Due to limited 3D labeled data, traditional supervised segmentation methods fall short in generalizing to unseen shapes and categories. Recently, the advancement in vision-language models' zero-shot abilities has brought a surge in open-world 3D segmentation methods. While these methods show promising results for 3D scenes or objects, they do not generalize well to 3D humans. In this paper, we present the first open-vocabulary segmentation method capable of handling 3D human. Our framework can segment the human category into desired fine-grained parts based on the textual prompt. We design a simple segmentation pipeline, leveraging SAM to generate multi-view proposals in 2D and proposing a novel HumanCLIP model to create unified embeddings for visual and textual inputs. Compared with existing pre-trained CLIP models, the HumanCLIP model yields more accurate embeddings for human-centric contents. We also design a simple-yet-effective MaskFusion module, which classifies and fuses multi-view features into 3D semantic masks without complex voting and grouping mechanisms. The design of decoupling mask proposals and text input also significantly boosts the efficiency of per-prompt inference. Experimental results on various 3D human datasets show that our method outperforms current state-of-the-art open-vocabulary 3D segmentation methods by a large margin. In addition, we show that our method can be directly applied to various 3D representations including meshes, point clouds, and 3D Gaussian Splatting.