PartDistill: 3D Shape Part Segmentation by Vision-Language Model Distillation
作者: Ardian Umam, Cheng-Kun Yang, Min-Hung Chen, Jen-Hui Chuang, Yen-Yu Lin
分类: cs.CV
发布日期: 2023-12-07 (更新: 2024-04-16)
备注: CVPR 2024 Accepted
🔗 代码/项目: GITHUB
💡 一句话要点
提出PartDistill,通过视觉-语言模型蒸馏实现3D形状部件分割
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 3D形状分割 视觉-语言模型 知识蒸馏 跨模态学习 双向蒸馏
📋 核心要点
- 现有方法在3D形状部件分割中,难以处理2D投影中不可见区域的分割,且视觉-语言模型的预测结果存在不一致性。
- PartDistill通过跨模态蒸馏,将视觉-语言模型的2D知识迁移到3D形状部件分割,解决知识积累不足的问题。
- 实验表明,PartDistill在ShapeNetPart和PartNetE数据集上显著提升了分割性能,mIoU分别提高了15%和12%以上。
📝 摘要(中文)
本文提出了一种跨模态蒸馏框架PartDistill,它将来自视觉-语言模型(VLM)的2D知识迁移到3D形状部件分割任务中。PartDistill解决了该任务中的三个主要挑战:2D投影中不可见或未检测区域缺乏3D分割信息、VLM的2D预测不一致,以及不同3D形状之间缺乏知识积累。PartDistill包含一个教师网络(使用VLM进行2D预测)和一个学生网络(从2D预测中学习,同时提取多个3D形状的几何特征以进行3D部件分割)。该框架内执行双向蒸馏,包括前向和后向蒸馏,前者将2D预测蒸馏到学生网络,后者提高2D预测的质量,从而增强最终的3D分割效果。此外,PartDistill可以利用生成模型轻松创建3D形状,从而生成可用于蒸馏的知识源。通过广泛的实验,PartDistill在广泛使用的ShapeNetPart和PartNetE数据集上大幅提升了现有方法,mIoU得分分别提高了15%以上和12%以上。该工作的代码可在https://github.com/ardianumam/PartDistill 获取。
🔬 方法详解
问题定义:论文旨在解决3D形状部件分割问题,现有方法在利用2D视觉信息辅助3D分割时,面临着几个关键痛点:一是2D投影无法覆盖3D形状的所有表面,导致不可见区域的分割信息缺失;二是视觉-语言模型(VLM)在不同视角下的2D预测结果可能不一致,影响3D分割的准确性;三是缺乏跨3D形状的知识积累机制,导致模型泛化能力受限。
核心思路:PartDistill的核心思路是通过跨模态蒸馏,将VLM在2D图像上的语义理解能力迁移到3D形状分割任务中。具体而言,利用VLM对3D形状的2D投影进行部件分割预测,并将这些预测结果作为“知识”传递给一个专门用于3D分割的学生网络。通过这种方式,可以有效地利用VLM的强大语义信息,同时克服2D投影的局限性。
技术框架:PartDistill框架包含一个教师网络(VLM)和一个学生网络。教师网络负责对3D形状的多个2D投影进行部件分割预测,生成伪标签。学生网络则利用这些伪标签以及3D形状的几何特征进行学习,最终实现3D部件分割。框架采用双向蒸馏策略:前向蒸馏将教师网络的2D预测结果传递给学生网络;后向蒸馏则利用学生网络的反馈来优化教师网络的2D预测,从而提高伪标签的质量。此外,框架还支持利用生成模型生成额外的3D形状数据,以扩充训练集。
关键创新:PartDistill的关键创新在于其双向蒸馏策略和跨模态知识迁移方法。传统的蒸馏方法通常只关注从教师到学生的单向知识传递,而PartDistill通过后向蒸馏,实现了教师和学生之间的相互学习,从而提高了整体性能。此外,将VLM的2D语义知识迁移到3D分割任务中,是一种新颖的思路,可以有效地利用VLM的强大能力。
关键设计:在具体实现上,教师网络可以使用预训练的VLM模型,例如CLIP。学生网络可以使用PointNet或DGCNN等3D点云处理网络。损失函数包括分割损失(例如交叉熵损失)和蒸馏损失(例如KL散度损失)。双向蒸馏的实现方式可以是:学生网络预测结果与教师网络预测结果进行比较,然后利用差异来调整教师网络的参数。对于生成模型的利用,可以通过GAN等方法生成新的3D形状,并使用教师网络对其进行标注,然后加入训练集。
📊 实验亮点
PartDistill在ShapeNetPart和PartNetE数据集上取得了显著的性能提升。在ShapeNetPart数据集上,mIoU指标提升了15%以上,在PartNetE数据集上,mIoU指标提升了12%以上。这些结果表明,PartDistill能够有效地利用VLM的知识,并显著提高3D形状部件分割的准确性。
🎯 应用场景
PartDistill在3D形状理解领域具有广泛的应用前景,例如机器人场景理解、CAD模型分析、虚拟现实内容创作等。通过提升3D形状部件分割的准确性和效率,可以为这些应用提供更可靠的基础。此外,该方法还可以应用于其他3D视觉任务,例如3D目标检测和3D场景重建。
📄 摘要(原文)
This paper proposes a cross-modal distillation framework, PartDistill, which transfers 2D knowledge from vision-language models (VLMs) to facilitate 3D shape part segmentation. PartDistill addresses three major challenges in this task: the lack of 3D segmentation in invisible or undetected regions in the 2D projections, inconsistent 2D predictions by VLMs, and the lack of knowledge accumulation across different 3D shapes. PartDistill consists of a teacher network that uses a VLM to make 2D predictions and a student network that learns from the 2D predictions while extracting geometrical features from multiple 3D shapes to carry out 3D part segmentation. A bi-directional distillation, including forward and backward distillations, is carried out within the framework, where the former forward distills the 2D predictions to the student network, and the latter improves the quality of the 2D predictions, which subsequently enhances the final 3D segmentation. Moreover, PartDistill can exploit generative models that facilitate effortless 3D shape creation for generating knowledge sources to be distilled. Through extensive experiments, PartDistill boosts the existing methods with substantial margins on widely used ShapeNetPart and PartNetE datasets, by more than 15% and 12% higher mIoU scores, respectively. The code for this work is available at https://github.com/ardianumam/PartDistill.