LangOcc: Self-Supervised Open Vocabulary Occupancy Estimation via Volume Rendering

📄 arXiv: 2407.17310v2 📥 PDF

作者: Simon Boeder, Fabian Gigengack, Benjamin Risse

分类: cs.CV

发布日期: 2024-07-24 (更新: 2024-07-25)


💡 一句话要点

LangOcc:基于体渲染的自监督开放词汇表占据估计

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D占据估计 自监督学习 视觉语言模型 体渲染 开放词汇表

📋 核心要点

  1. 现有基于相机的3D占据估计方法依赖昂贵的3D体素标签或激光雷达扫描,限制了其应用范围和可扩展性。
  2. LangOcc通过可微体渲染将CLIP的视觉-语言知识提炼到3D占据模型中,实现仅使用相机图像的自监督训练。
  3. 实验表明,LangOcc在开放词汇表占据估计方面超越了激光雷达监督方法,并在自监督语义占据估计方面取得了领先成果。

📝 摘要(中文)

本文提出了一种名为LangOcc的开放词汇表占据估计新方法,用于解决视觉自主驾驶中的3D占据估计问题。现有方法依赖昂贵的3D体素标签或激光雷达扫描进行训练,限制了实用性和可扩展性,并且通常只能检测预定义的类别。LangOcc仅使用相机图像进行训练,并通过视觉-语言对齐检测任意语义。具体而言,通过可微体渲染将强大的视觉-语言对齐编码器CLIP的知识提炼到3D占据模型中。该模型仅使用图像估计3D体素网格中视觉-语言对齐的特征。通过将估计结果渲染回2D空间进行自监督训练,在2D空间中可以计算ground-truth特征。这种训练机制自动监督场景几何,无需任何显式的几何监督。LangOcc在开放词汇表占据估计方面优于激光雷达监督的竞争对手,并且在Occ3D-nuScenes数据集上实现了自监督语义占据估计的最先进结果,证明了所提出的视觉-语言训练的有效性。

🔬 方法详解

问题定义:现有的基于视觉的3D占据估计方法通常需要大量的3D体素标签或激光雷达扫描数据进行监督训练,这使得它们在数据获取方面成本高昂,并且难以扩展到新的场景。此外,这些方法通常只能检测预定义的类别,无法处理开放词汇表中的任意语义。

核心思路:LangOcc的核心思路是利用预训练的视觉-语言模型CLIP的强大语义理解能力,通过自监督学习的方式,将CLIP的知识迁移到3D占据估计任务中。通过可微体渲染,将3D体素网格中的特征渲染回2D图像空间,并与CLIP提取的2D图像特征进行对齐,从而实现对3D占据模型的训练。这种方法无需任何显式的3D几何监督,只需要相机图像即可。

技术框架:LangOcc的整体框架包括以下几个主要模块:1) 3D体素网格:用于表示场景的3D空间;2) 视觉-语言对齐的3D特征估计器:用于估计每个体素中与视觉-语言相关的特征;3) 可微体渲染器:用于将3D体素网格中的特征渲染回2D图像空间;4) CLIP编码器:用于提取2D图像的视觉-语言特征;5) 自监督损失函数:用于对齐渲染的2D特征和CLIP提取的2D特征。

关键创新:LangOcc的关键创新在于:1) 提出了一种基于视觉-语言对齐的自监督训练方法,无需任何显式的3D几何监督;2) 利用可微体渲染技术,实现了3D体素网格和2D图像之间的可微连接;3) 能够进行开放词汇表占据估计,可以检测任意语义,而不仅仅是预定义的类别。与现有方法的本质区别在于,LangOcc不需要昂贵的3D标签或激光雷达数据,并且具有更强的泛化能力。

关键设计:LangOcc的关键设计包括:1) 使用CLIP作为视觉-语言编码器,以获得强大的语义理解能力;2) 使用可微体渲染技术,实现3D到2D的投影;3) 设计了自监督损失函数,用于对齐渲染的2D特征和CLIP提取的2D特征。具体的损失函数包括余弦相似度损失等。网络结构细节和参数设置在论文中有详细描述,此处未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LangOcc在开放词汇表占据估计方面显著优于激光雷达监督的竞争对手,证明了其视觉-语言训练的有效性。此外,在Occ3D-nuScenes数据集上,LangOcc在自监督语义占据估计方面取得了最先进的结果,即使它不受特定类别限制。具体性能数据和提升幅度未知,请参考原始论文。

🎯 应用场景

LangOcc在自动驾驶、机器人导航、场景理解等领域具有广泛的应用前景。它可以帮助自动驾驶系统更好地理解周围环境,从而做出更安全、更合理的决策。此外,LangOcc还可以用于机器人导航,使机器人能够在复杂的环境中自主移动。该研究的未来影响在于,它为开发更智能、更可靠的自主系统提供了新的思路和方法。

📄 摘要(原文)

The 3D occupancy estimation task has become an important challenge in the area of vision-based autonomous driving recently. However, most existing camera-based methods rely on costly 3D voxel labels or LiDAR scans for training, limiting their practicality and scalability. Moreover, most methods are tied to a predefined set of classes which they can detect. In this work we present a novel approach for open vocabulary occupancy estimation called LangOcc, that is trained only via camera images, and can detect arbitrary semantics via vision-language alignment. In particular, we distill the knowledge of the strong vision-language aligned encoder CLIP into a 3D occupancy model via differentiable volume rendering. Our model estimates vision-language aligned features in a 3D voxel grid using only images. It is trained in a self-supervised manner by rendering our estimations back to 2D space, where ground-truth features can be computed. This training mechanism automatically supervises the scene geometry, allowing for a straight-forward and powerful training method without any explicit geometry supervision. LangOcc outperforms LiDAR-supervised competitors in open vocabulary occupancy by a large margin, solely relying on vision-based training. We also achieve state-of-the-art results in self-supervised semantic occupancy estimation on the Occ3D-nuScenes dataset, despite not being limited to a specific set of categories, thus demonstrating the effectiveness of our proposed vision-language training.