LOSC: LiDAR Open-voc Segmentation Consolidator

📄 arXiv: 2507.07605v1 📥 PDF

作者: Nermin Samet, Gilles Puy, Renaud Marlet

分类: cs.CV

发布日期: 2025-07-10


💡 一句话要点

LOSC:利用图像视觉-语言模型进行LiDAR开放词汇分割,显著提升性能。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: LiDAR分割 开放词汇分割 视觉-语言模型 点云处理 时空一致性

📋 核心要点

  1. 现有方法将图像语义反投影到3D点云,导致点云标签噪声大、稀疏,影响分割效果。
  2. LOSC通过整合点云标签,增强时空一致性和对图像增强的鲁棒性,从而获得更可靠的训练数据。
  3. 实验表明,LOSC在nuScenes和SemanticKITTI数据集上显著超越了现有零样本开放词汇分割方法。

📝 摘要(中文)

本文研究了基于图像的视觉-语言模型(VLM)在驾驶场景中对激光雷达扫描进行开放词汇分割的应用。传统方法是将图像语义反投影到3D点云上,但由此产生的点标签噪声大且稀疏。我们通过整合这些标签,增强其时空一致性和对图像级增强的鲁棒性。然后,我们基于这些精炼的标签训练一个3D网络。这种简单的方法,称为LOSC,在nuScenes和SemanticKITTI数据集上,超越了零样本开放词汇语义和全景分割的SOTA,且具有显著的优势。

🔬 方法详解

问题定义:论文旨在解决LiDAR点云的开放词汇分割问题,即在没有预定义类别的情况下,根据文本描述分割点云。现有方法依赖于将图像语义反投影到3D点云,但由于图像和点云之间的视角差异、遮挡以及图像分割本身的不确定性,导致反投影的点云标签噪声大且稀疏,严重影响分割性能。

核心思路:论文的核心思路是利用视觉-语言模型(VLM)的强大语义理解能力,先将图像语义信息提取出来,然后通过时空一致性约束和数据增强策略来优化反投影到点云上的标签,从而得到更准确、更鲁棒的点云标签。这些精炼的标签随后被用于训练3D分割网络。

技术框架:LOSC方法的整体框架包含以下几个主要阶段:1) 利用VLM提取图像语义信息;2) 将图像语义反投影到3D点云,生成初始点云标签;3) 通过时空一致性约束和数据增强策略,对点云标签进行优化和精炼;4) 使用精炼后的点云标签训练3D分割网络。

关键创新:该方法最重要的创新点在于标签整合策略,它通过时空一致性约束和数据增强策略来提高点云标签的质量。与直接使用反投影的噪声标签相比,该方法能够生成更准确、更鲁棒的训练数据,从而显著提升分割性能。

关键设计:在时空一致性约束方面,论文利用连续帧之间的点云变换关系来保证标签的一致性。在数据增强方面,论文采用了多种图像级别的增强方法,并确保增强后的图像能够生成一致的点云标签。具体的损失函数和网络结构细节在论文中应该有更详细的描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LOSC在nuScenes和SemanticKITTI数据集上取得了显著的性能提升,超越了现有的零样本开放词汇语义和全景分割方法。具体的性能数据和提升幅度需要在论文中查找(未知),但摘要中明确指出是“significant margins”,表明提升幅度较大。

🎯 应用场景

该研究成果可广泛应用于自动驾驶、机器人导航、三维场景理解等领域。通过开放词汇分割,系统能够识别和分割场景中未预先定义的物体,从而提高环境感知能力和适应性。未来,该技术有望应用于更复杂的场景,并与其他感知模块集成,实现更智能化的决策。

📄 摘要(原文)

We study the use of image-based Vision-Language Models (VLMs) for open-vocabulary segmentation of lidar scans in driving settings. Classically, image semantics can be back-projected onto 3D point clouds. Yet, resulting point labels are noisy and sparse. We consolidate these labels to enforce both spatio-temporal consistency and robustness to image-level augmentations. We then train a 3D network based on these refined labels. This simple method, called LOSC, outperforms the SOTA of zero-shot open-vocabulary semantic and panoptic segmentation on both nuScenes and SemanticKITTI, with significant margins.