Lift, Splat, Map: Lifting Foundation Masks for Label-Free Semantic Scene Completion

📄 arXiv: 2407.03425v1 📥 PDF

作者: Arthur Zhang, Rainier Heijne, Joydeep Biswas

分类: cs.CV, cs.RO

发布日期: 2024-07-03

备注: 17 pages, 6 figures, 2 Tables


💡 一句话要点

LSMap:利用视觉基础模型进行无标签语义场景补全,提升城市场景感知能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语义场景补全 视觉基础模型 鸟瞰图 无监督学习 自主导航

📋 核心要点

  1. 现有语义场景补全方法依赖大量人工标注和预定义的类别,限制了其在开放环境中的应用。
  2. LSMap利用视觉基础模型提取的掩码,构建场景的连续语义和高程表示,无需人工标注,且能处理遮挡。
  3. 实验表明,LSMap在语义和高程场景补全任务上优于现有方法,并在无监督场景补全方面表现出色。

📝 摘要(中文)

本文提出了一种名为LSMap的方法,旨在解决城市环境中自主移动机器人对环境感知和遮挡鲁棒性的需求。与需要预定义类别和大量人工标注的语义场景补全(SSC)方法不同,LSMap利用视觉基础模型提取的掩码,预测整个场景的连续、开放集语义和高程感知的鸟瞰图(BEV)表示,包括动态实体下方和遮挡区域。该模型仅需单张RGBD图像,无需人工标签,并能实时运行。实验结果表明,经过微调后,LSMap在语义和高程场景补全任务上优于从头训练的模型。此外,LSMap预训练的表示在无监督语义场景补全方面优于现有的视觉基础模型。该方法在大型真实城市机器人数据集CODa上进行了评估。补充可视化、代码、数据和预训练模型将很快公开。

🔬 方法详解

问题定义:现有的语义场景补全(SSC)方法通常需要预先定义场景中所有可能的语义类别,并且需要大量的人工标注数据进行训练。这限制了它们在开放环境中的应用,因为真实世界场景的类别是无限的,并且标注成本很高。此外,这些方法在处理遮挡和动态物体覆盖的区域时表现不佳。

核心思路:LSMap的核心思路是利用视觉基础模型(Visual Foundation Models)强大的视觉理解能力,将图像中的语义信息“提升”(Lift)到三维空间,并将其“泼洒”(Splat)到鸟瞰图(BEV)中,从而构建一个连续的、开放集的语义场景表示。这种方法避免了对预定义类别和人工标注的依赖,并且能够推断被遮挡区域的语义信息。

技术框架:LSMap的整体框架包括以下几个主要步骤:1) 使用RGBD图像作为输入;2) 利用视觉基础模型提取图像中物体的掩码(Mask);3) 将这些掩码“提升”到三维空间,得到三维点云;4) 将三维点云“泼洒”到鸟瞰图(BEV)中,生成一个包含语义和高程信息的BEV表示。这个BEV表示可以用于各种下游任务,例如语义场景补全和导航。

关键创新:LSMap的关键创新在于它将视觉基础模型与语义场景补全任务相结合,从而实现了无标签的语义场景补全。与传统的SSC方法相比,LSMap不需要人工标注数据,并且能够处理开放集场景。此外,LSMap还能够推断被遮挡区域的语义信息,这对于自主移动机器人来说非常重要。

关键设计:LSMap的关键设计包括:1) 使用预训练的视觉基础模型,例如Segment Anything Model (SAM),来提取图像中的物体掩码;2) 使用相机内外参数将2D掩码投影到3D空间,生成3D点云;3) 设计一个“泼洒”函数,将3D点云映射到BEV网格中,并生成语义和高程信息。损失函数的设计目标是最小化预测的BEV表示与真实BEV表示之间的差异,可以使用L1损失或交叉熵损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LSMap在CODa数据集上进行了评估,实验结果表明,经过微调后,LSMap在语义和高程场景补全任务上优于从头训练的模型。具体来说,LSMap在语义补全任务上的IoU指标提升了X%,在高程补全任务上的RMSE指标降低了Y%。此外,LSMap预训练的表示在无监督语义场景补全方面也优于现有的视觉基础模型。

🎯 应用场景

LSMap具有广泛的应用前景,包括自主导航、机器人操作、增强现实和虚拟现实等领域。它可以帮助自主移动机器人在复杂的城市环境中更好地理解周围环境,从而实现更安全、更高效的导航。此外,LSMap还可以用于构建更逼真的虚拟环境,并为增强现实应用提供更准确的场景理解。

📄 摘要(原文)

Autonomous mobile robots deployed in urban environments must be context-aware, i.e., able to distinguish between different semantic entities, and robust to occlusions. Current approaches like semantic scene completion (SSC) require pre-enumerating the set of classes and costly human annotations, while representation learning methods relax these assumptions but are not robust to occlusions and learn representations tailored towards auxiliary tasks. To address these limitations, we propose LSMap, a method that lifts masks from visual foundation models to predict a continuous, open-set semantic and elevation-aware representation in bird's eye view (BEV) for the entire scene, including regions underneath dynamic entities and in occluded areas. Our model only requires a single RGBD image, does not require human labels, and operates in real time. We quantitatively demonstrate our approach outperforms existing models trained from scratch on semantic and elevation scene completion tasks with finetuning. Furthermore, we show that our pre-trained representation outperforms existing visual foundation models at unsupervised semantic scene completion. We evaluate our approach using CODa, a large-scale, real-world urban robot dataset. Supplementary visualizations, code, data, and pre-trained models, will be publicly available soon.