Semi-supervised 3D Semantic Scene Completion with 2D Vision Foundation Model Guidance

📄 arXiv: 2408.11559v4 📥 PDF

作者: Duc-Hai Pham, Duc-Dung Nguyen, Anh Pham, Tuan Ho, Phong Nguyen, Khoi Nguyen, Rang Nguyen

分类: cs.CV

发布日期: 2024-08-21 (更新: 2025-01-09)

备注: Accepted at AAAI2025. Project Page: https://vinairesearch.github.io/SemiSSC


💡 一句话要点

提出一种半监督3D语义场景补全框架,利用2D视觉基础模型指导。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D语义场景补全 半监督学习 2D视觉基础模型 自动驾驶 机器人导航

📋 核心要点

  1. 现有3D语义场景补全方法依赖大量标注数据,标注成本高昂,限制了其应用和扩展。
  2. 利用2D视觉基础模型生成3D场景的几何和语义线索,辅助半监督训练,降低对标注数据的依赖。
  3. 实验表明,该方法仅使用10%的标注数据,即可达到完全监督性能的85%,具有良好的效果。

📝 摘要(中文)

本文提出了一种新颖的半监督框架,旨在减少对密集标注数据的依赖,从而解决3D语义场景补全任务中数据标注成本高昂的问题。该方法利用2D视觉基础模型生成关键的3D场景几何和语义线索,以促进更高效的训练过程。该框架具有通用性,可应用于多种3D语义场景补全方法,包括2D-3D lifting和3D-2D transformer方法。在SemanticKITTI和NYUv2数据集上的实验表明,该方法仅使用10%的标注数据,即可达到完全监督性能的85%。这不仅降低了数据标注的成本和工作量,还展示了基于相机的系统在3D语义占用预测中更广泛应用的潜力。

🔬 方法详解

问题定义:论文旨在解决3D语义场景补全任务中,对大量人工标注数据的依赖问题。现有方法通常采用全监督学习,需要昂贵的激光雷达传感器获取数据,并由人工进行逐体素的标注,成本高昂,限制了模型的泛化能力和实际应用。

核心思路:论文的核心思路是利用预训练的2D视觉基础模型,从2D图像中提取3D场景的几何和语义信息,作为3D语义场景补全模型的辅助信息,从而在只有少量标注数据的情况下,也能训练出高性能的模型。这种方法利用了2D视觉基础模型强大的先验知识,减少了对3D标注数据的需求。

技术框架:整体框架包含以下几个主要模块:1) 2D视觉基础模型:用于从2D图像中提取语义和几何特征。2) 3D语义场景补全模型:可以是基于2D-3D lifting的方法,也可以是基于3D-2D transformer的方法。3) 半监督训练策略:利用少量标注数据和2D视觉基础模型提供的伪标签,进行模型的训练。具体流程是,首先使用2D视觉基础模型对未标注的2D图像进行处理,生成3D场景的几何和语义伪标签,然后将这些伪标签与少量标注的3D数据一起用于训练3D语义场景补全模型。

关键创新:最重要的创新点在于利用2D视觉基础模型来指导3D语义场景补全任务的半监督学习。与传统的半监督学习方法不同,该方法不是直接对3D数据进行操作,而是利用2D视觉基础模型提供的先验知识,生成高质量的伪标签,从而更有效地利用未标注数据。

关键设计:论文的关键设计包括:1) 选择合适的2D视觉基础模型,例如CLIP等,以提取高质量的语义和几何特征。2) 设计合适的损失函数,例如结合交叉熵损失和一致性损失,以保证模型在标注数据和伪标签上的性能。3) 设计合适的半监督训练策略,例如采用teacher-student模型,以提高伪标签的质量和模型的鲁棒性。具体参数设置和网络结构细节在论文中未明确给出,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在SemanticKITTI和NYUv2数据集上取得了显著的性能提升。仅使用10%的标注数据,即可达到完全监督性能的85%。这表明该方法能够有效地利用未标注数据,降低数据标注成本,并提高模型的泛化能力。具体的性能指标和对比基线在论文中未详细给出,属于未知信息。

🎯 应用场景

该研究成果可广泛应用于自动驾驶、机器人导航、虚拟现实等领域。通过降低对昂贵3D标注数据的依赖,可以更经济高效地构建基于相机的3D场景理解系统,加速相关技术的落地和普及。未来,该方法有望应用于更大规模、更复杂的场景,提升智能系统的环境感知能力。

📄 摘要(原文)

Accurate prediction of 3D semantic occupancy from 2D visual images is vital in enabling autonomous agents to comprehend their surroundings for planning and navigation. State-of-the-art methods typically employ fully supervised approaches, necessitating a huge labeled dataset acquired through expensive LiDAR sensors and meticulous voxel-wise labeling by human annotators. The resource-intensive nature of this annotating process significantly hampers the application and scalability of these methods. We introduce a novel semi-supervised framework to alleviate the dependency on densely annotated data. Our approach leverages 2D foundation models to generate essential 3D scene geometric and semantic cues, facilitating a more efficient training process. Our framework exhibits notable properties: (1) Generalizability, applicable to various 3D semantic scene completion approaches, including 2D-3D lifting and 3D-2D transformer methods. (2) Effectiveness, as demonstrated through experiments on SemanticKITTI and NYUv2, wherein our method achieves up to 85% of the fully-supervised performance using only 10% labeled data. This approach not only reduces the cost and labor associated with data annotation but also demonstrates the potential for broader adoption in camera-based systems for 3D semantic occupancy prediction.