Label-Efficient LiDAR Semantic Segmentation with 2D-3D Vision Transformer Adapters

作者: Julia Hindel, Rohit Mohan, Jelena Bratulic, Daniele Cattaneo, Thomas Brox, Abhinav Valada

分类: cs.CV

发布日期: 2025-03-05

💡 一句话要点

提出BALViT，利用2D-3D Vision Transformer适配器实现LiDAR语义分割的标签高效学习。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LiDAR语义分割 视觉Transformer 2D-3D适配器 标签高效学习 知识迁移

📋 核心要点

现有LiDAR语义分割模型依赖大量标注数据，且缺乏有效的预训练方法和视觉领域的知识迁移。
BALViT利用冻结的视觉模型作为特征编码器，通过2D-3D适配器融合range-view和bird's-eye-view LiDAR信息。
在SemanticKITTI和nuScenes数据集上的实验表明，BALViT在少量数据下显著优于现有方法，实现了标签高效学习。

📝 摘要（中文）

LiDAR语义分割模型通常从随机初始化开始训练，因为缺乏大型、多样化的数据集阻碍了通用预训练。此外，大多数点云分割架构都包含自定义网络层，限制了视觉架构的进步迁移。受通用基础模型的启发，我们提出了BALViT，一种利用冻结视觉模型作为非模态特征编码器来学习强大的LiDAR编码器的新方法。具体来说，BALViT结合了range-view和bird's-eye-view LiDAR编码机制，并通过一种新颖的2D-3D适配器将它们结合起来。range-view特征通过冻结的图像骨干网络处理，而bird's-eye-view分支通过多次交叉注意力交互来增强它们。因此，我们不断地用领域相关的知识改进视觉网络，从而产生一种强大的标签高效LiDAR编码机制。在SemanticKITTI和nuScenes基准上的大量评估表明，BALViT在小数据量的情况下优于最先进的方法。代码和模型已公开。

🔬 方法详解

问题定义：LiDAR语义分割任务需要大量的标注数据，而现有方法难以有效利用视觉领域的预训练模型，导致在数据量有限的情况下性能不佳。现有的点云分割架构通常包含自定义网络层，限制了视觉领域先进架构的迁移能力。

核心思路：利用预训练的视觉模型作为LiDAR数据的特征编码器，通过设计2D-3D适配器，将range-view图像特征和bird's-eye-view点云特征进行融合，从而实现知识迁移和标签高效学习。核心在于利用视觉模型强大的特征提取能力，并将其适配到LiDAR数据上。

技术框架：BALViT包含两个主要分支：range-view分支和bird's-eye-view分支。range-view分支使用冻结的视觉骨干网络（如Vision Transformer）提取特征。bird's-eye-view分支则通过交叉注意力机制与range-view特征进行交互，从而增强特征表示。最后，通过2D-3D适配器将两个分支的特征融合，用于最终的语义分割。

关键创新：该方法的核心创新在于2D-3D适配器的设计，它能够有效地将视觉模型的特征迁移到LiDAR数据上，并融合不同视角的特征。此外，利用冻结的视觉模型避免了从头开始训练，大大减少了对标注数据的需求。与现有方法相比，BALViT更有效地利用了视觉领域的知识，实现了标签高效学习。

关键设计：range-view分支采用预训练的Vision Transformer，并将其参数冻结，以防止在LiDAR数据上过拟合。bird's-eye-view分支使用Transformer结构，并通过交叉注意力机制与range-view特征进行交互。2D-3D适配器采用简单的线性层或卷积层，将两个分支的特征映射到相同的维度空间，然后进行融合。损失函数采用标准的交叉熵损失函数，用于监督语义分割任务。

🖼️ 关键图片

📊 实验亮点

BALViT在SemanticKITTI和nuScenes数据集上进行了评估，结果表明，在少量数据的情况下，BALViT显著优于现有的最先进方法。例如，在SemanticKITTI数据集上，使用1/8的数据进行训练，BALViT的性能超过了使用全部数据训练的基线模型。这表明BALViT具有很强的标签高效学习能力。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、智慧城市等领域。通过减少对大量标注数据的依赖，可以降低LiDAR语义分割模型的部署成本，加速相关技术的落地。未来，该方法可以扩展到其他传感器模态，实现更鲁棒、更高效的环境感知。

📄 摘要（原文）

LiDAR semantic segmentation models are typically trained from random initialization as universal pre-training is hindered by the lack of large, diverse datasets. Moreover, most point cloud segmentation architectures incorporate custom network layers, limiting the transferability of advances from vision-based architectures. Inspired by recent advances in universal foundation models, we propose BALViT, a novel approach that leverages frozen vision models as amodal feature encoders for learning strong LiDAR encoders. Specifically, BALViT incorporates both range-view and bird's-eye-view LiDAR encoding mechanisms, which we combine through a novel 2D-3D adapter. While the range-view features are processed through a frozen image backbone, our bird's-eye-view branch enhances them through multiple cross-attention interactions. Thereby, we continuously improve the vision network with domain-dependent knowledge, resulting in a strong label-efficient LiDAR encoding mechanism. Extensive evaluations of BALViT on the SemanticKITTI and nuScenes benchmarks demonstrate that it outperforms state-of-the-art methods on small data regimes. We make the code and models publicly available at: http://balvit.cs.uni-freiburg.de.

Label-Efficient LiDAR Semantic Segmentation with 2D-3D Vision Transformer Adapters

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理