Semi-supervised 3D Semantic Scene Completion with 2D Vision Foundation Model Guidance

作者: Duc-Hai Pham, Duc-Dung Nguyen, Anh Pham, Tuan Ho, Phong Nguyen, Khoi Nguyen, Rang Nguyen

分类: cs.CV

发布日期: 2024-08-21 (更新: 2025-01-09)

备注: Accepted at AAAI2025. Project Page: https://vinairesearch.github.io/SemiSSC

💡 一句话要点

提出一种半监督3D语义场景补全框架，利用2D视觉基础模型指导。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 3D语义场景补全 半监督学习 2D视觉基础模型 自动驾驶 机器人导航

📋 核心要点

现有3D语义场景补全方法依赖大量标注数据，标注成本高昂，限制了其应用和扩展。
利用2D视觉基础模型生成3D场景的几何和语义线索，辅助半监督训练，降低对标注数据的依赖。
实验表明，该方法仅使用10%的标注数据，即可达到完全监督性能的85%，具有良好的效果。

📝 摘要（中文）

本文提出了一种新颖的半监督框架，旨在减少对密集标注数据的依赖，从而解决3D语义场景补全任务中数据标注成本高昂的问题。该方法利用2D视觉基础模型生成关键的3D场景几何和语义线索，以促进更高效的训练过程。该框架具有通用性，可应用于多种3D语义场景补全方法，包括2D-3D lifting和3D-2D transformer方法。在SemanticKITTI和NYUv2数据集上的实验表明，该方法仅使用10%的标注数据，即可达到完全监督性能的85%。这不仅降低了数据标注的成本和工作量，还展示了基于相机的系统在3D语义占用预测中更广泛应用的潜力。

🔬 方法详解

问题定义：论文旨在解决3D语义场景补全任务中，对大量人工标注数据的依赖问题。现有方法通常采用全监督学习，需要昂贵的激光雷达传感器获取数据，并由人工进行逐体素的标注，成本高昂，限制了模型的泛化能力和实际应用。

核心思路：论文的核心思路是利用预训练的2D视觉基础模型，从2D图像中提取3D场景的几何和语义信息，作为3D语义场景补全模型的辅助信息，从而在只有少量标注数据的情况下，也能训练出高性能的模型。这种方法利用了2D视觉基础模型强大的先验知识，减少了对3D标注数据的需求。

技术框架：整体框架包含以下几个主要模块：1) 2D视觉基础模型：用于从2D图像中提取语义和几何特征。2) 3D语义场景补全模型：可以是基于2D-3D lifting的方法，也可以是基于3D-2D transformer的方法。3) 半监督训练策略：利用少量标注数据和2D视觉基础模型提供的伪标签，进行模型的训练。具体流程是，首先使用2D视觉基础模型对未标注的2D图像进行处理，生成3D场景的几何和语义伪标签，然后将这些伪标签与少量标注的3D数据一起用于训练3D语义场景补全模型。

关键创新：最重要的创新点在于利用2D视觉基础模型来指导3D语义场景补全任务的半监督学习。与传统的半监督学习方法不同，该方法不是直接对3D数据进行操作，而是利用2D视觉基础模型提供的先验知识，生成高质量的伪标签，从而更有效地利用未标注数据。

关键设计：论文的关键设计包括：1) 选择合适的2D视觉基础模型，例如CLIP等，以提取高质量的语义和几何特征。2) 设计合适的损失函数，例如结合交叉熵损失和一致性损失，以保证模型在标注数据和伪标签上的性能。3) 设计合适的半监督训练策略，例如采用teacher-student模型，以提高伪标签的质量和模型的鲁棒性。具体参数设置和网络结构细节在论文中未明确给出，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在SemanticKITTI和NYUv2数据集上取得了显著的性能提升。仅使用10%的标注数据，即可达到完全监督性能的85%。这表明该方法能够有效地利用未标注数据，降低数据标注成本，并提高模型的泛化能力。具体的性能指标和对比基线在论文中未详细给出，属于未知信息。

🎯 应用场景

该研究成果可广泛应用于自动驾驶、机器人导航、虚拟现实等领域。通过降低对昂贵3D标注数据的依赖，可以更经济高效地构建基于相机的3D场景理解系统，加速相关技术的落地和普及。未来，该方法有望应用于更大规模、更复杂的场景，提升智能系统的环境感知能力。

📄 摘要（原文）

Accurate prediction of 3D semantic occupancy from 2D visual images is vital in enabling autonomous agents to comprehend their surroundings for planning and navigation. State-of-the-art methods typically employ fully supervised approaches, necessitating a huge labeled dataset acquired through expensive LiDAR sensors and meticulous voxel-wise labeling by human annotators. The resource-intensive nature of this annotating process significantly hampers the application and scalability of these methods. We introduce a novel semi-supervised framework to alleviate the dependency on densely annotated data. Our approach leverages 2D foundation models to generate essential 3D scene geometric and semantic cues, facilitating a more efficient training process. Our framework exhibits notable properties: (1) Generalizability, applicable to various 3D semantic scene completion approaches, including 2D-3D lifting and 3D-2D transformer methods. (2) Effectiveness, as demonstrated through experiments on SemanticKITTI and NYUv2, wherein our method achieves up to 85% of the fully-supervised performance using only 10% labeled data. This approach not only reduces the cost and labor associated with data annotation but also demonstrates the potential for broader adoption in camera-based systems for 3D semantic occupancy prediction.

Semi-supervised 3D Semantic Scene Completion with 2D Vision Foundation Model Guidance

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理