Bayesian Self-Training for Semi-Supervised 3D Segmentation
作者: Ozan Unal, Christos Sakaridis, Luc Van Gool
分类: cs.CV
发布日期: 2024-09-12
备注: Accepted at ECCV 2024
💡 一句话要点
提出基于贝叶斯自训练的半监督3D分割框架,提升标注数据稀缺场景下的分割精度。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 半监督学习 3D分割 贝叶斯深度学习 不确定性估计 伪标签
📋 核心要点
- 3D分割任务依赖大量标注数据,但人工标注成本高昂,半监督学习旨在利用少量标注数据和大量无标注数据。
- 论文提出基于贝叶斯深度学习的自训练框架,通过不确定性估计过滤伪标签,提升半监督学习效果。
- 实验在多个3D分割和视觉定位数据集上取得领先成果,验证了所提方法在半监督场景下的有效性。
📝 摘要(中文)
3D分割是计算机视觉中的核心问题,与许多密集预测任务类似,它需要大量的标注数据进行充分训练。然而,密集地标注3D点云以进行全监督训练仍然过于费力且昂贵。半监督训练提供了一种更实用的替代方案,其中只提供一小部分标注数据,并伴随一个更大的未标注数据集。因此,该领域研究如何有效地利用未标注数据来减少由于缺乏标注而产生的性能差距。在这项工作中,受到贝叶斯深度学习的启发,我们首先提出了一个用于半监督3D语义分割的贝叶斯自训练框架。通过采用随机推断,我们生成一个初始的伪标签集,然后基于估计的点级不确定性来过滤这些伪标签。通过构建一个启发式的$n$-partite匹配算法,我们将该方法扩展到半监督3D实例分割,最后,使用相同的构建块,扩展到密集3D视觉定位。我们在SemanticKITTI和ScribbleKITTI上针对3D语义分割,以及在ScanNet和S3DIS上针对3D实例分割,展示了我们半监督方法的state-of-the-art结果。我们进一步在ScanRefer上实现了相对于仅使用监督的基线在密集3D视觉定位方面的显著改进。我们的项目页面可在ouenal.github.io/bst/上找到。
🔬 方法详解
问题定义:论文旨在解决3D场景理解中,由于3D数据标注成本高昂,导致训练数据不足的问题。现有方法在半监督3D分割任务中,对伪标签的质量控制不足,容易引入噪声,影响模型性能。
核心思路:论文的核心思路是利用贝叶斯深度学习中的不确定性估计来筛选高质量的伪标签。通过对模型预测结果的不确定性进行量化,过滤掉不确定性高的伪标签,从而减少噪声对模型训练的影响。
技术框架:该方法主要包含以下几个阶段:1) 使用少量标注数据训练初始模型;2) 使用初始模型对未标注数据进行预测,生成伪标签;3) 利用贝叶斯方法估计预测结果的不确定性;4) 根据不确定性阈值过滤伪标签;5) 使用标注数据和过滤后的伪标签重新训练模型。该框架可以扩展到3D语义分割、3D实例分割和3D视觉定位等任务。
关键创新:该方法最重要的创新点在于将贝叶斯不确定性估计引入到半监督3D分割任务中,用于伪标签的质量控制。与传统的基于置信度的伪标签选择方法相比,不确定性估计能够更准确地反映预测结果的可靠性。此外,论文还提出了一个启发式的$n$-partite匹配算法,用于半监督3D实例分割。
关键设计:在贝叶斯不确定性估计方面,论文采用Monte Carlo Dropout方法,通过多次Dropout采样来估计预测结果的方差,作为不确定性的度量。在损失函数方面,论文使用了交叉熵损失函数和Dice损失函数,以提高分割精度。在网络结构方面,论文使用了PointNet++作为3D分割的主干网络。
🖼️ 关键图片
📊 实验亮点
该方法在SemanticKITTI和ScribbleKITTI数据集上,针对3D语义分割任务,取得了state-of-the-art的结果。在ScanNet和S3DIS数据集上,针对3D实例分割任务,也取得了显著的性能提升。此外,在ScanRefer数据集上,该方法在密集3D视觉定位任务中,相对于仅使用监督的基线,实现了显著的改进。
🎯 应用场景
该研究成果可应用于自动驾驶、机器人导航、三维重建、智慧城市等领域。通过减少对大量标注数据的依赖,降低了3D场景理解算法的部署成本,加速了相关技术在实际场景中的应用。未来,该方法有望进一步扩展到其他3D感知任务,例如3D目标检测和3D场景图生成。
📄 摘要(原文)
3D segmentation is a core problem in computer vision and, similarly to many other dense prediction tasks, it requires large amounts of annotated data for adequate training. However, densely labeling 3D point clouds to employ fully-supervised training remains too labor intensive and expensive. Semi-supervised training provides a more practical alternative, where only a small set of labeled data is given, accompanied by a larger unlabeled set. This area thus studies the effective use of unlabeled data to reduce the performance gap that arises due to the lack of annotations. In this work, inspired by Bayesian deep learning, we first propose a Bayesian self-training framework for semi-supervised 3D semantic segmentation. Employing stochastic inference, we generate an initial set of pseudo-labels and then filter these based on estimated point-wise uncertainty. By constructing a heuristic $n$-partite matching algorithm, we extend the method to semi-supervised 3D instance segmentation, and finally, with the same building blocks, to dense 3D visual grounding. We demonstrate state-of-the-art results for our semi-supervised method on SemanticKITTI and ScribbleKITTI for 3D semantic segmentation and on ScanNet and S3DIS for 3D instance segmentation. We further achieve substantial improvements in dense 3D visual grounding over supervised-only baselines on ScanRefer. Our project page is available at ouenal.github.io/bst/.