Building a Strong Pre-Training Baseline for Universal 3D Large-Scale Perception

📄 arXiv: 2405.07201v1 📥 PDF

作者: Haoming Chen, Zhizhong Zhang, Yanyun Qu, Ruixin Zhang, Xin Tan, Yuan Xie

分类: cs.CV

发布日期: 2024-05-12

备注: Accepted to CVPR 2024

🔗 代码/项目: GITHUB


💡 一句话要点

提出CSC框架,通过场景级语义一致性提升通用3D大规模感知预训练效果。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D感知 预训练 场景理解 语义一致性 对比学习

📋 核心要点

  1. 现有3D预训练方法侧重帧级一致性,忽略了跨场景语义冲突,限制了通用性。
  2. 提出CSC框架,核心是场景级语义一致性,利用视觉基础模型和多模态信息。
  3. 实验表明,CSC框架在语义分割、目标检测和全景分割任务上均优于SOTA方法。

📝 摘要(中文)

在感知大规模动态场景中,一个有效的、具有通用3D表征的预训练框架至关重要。然而,建立一个既能适应各种任务又能高效利用标签的理想框架,在统一不同场景下相同图元的表征方面提出了挑战。目前的对比3D预训练方法通常遵循帧级别的一致性,侧重于每个独立图像中的2D-3D关系。这种考虑不周的一致性极大地阻碍了通用预训练框架的发展:(1) 跨场景的语义自冲突,即来自不同场景的相同语义的图元片段之间存在强烈的冲突;(2) 缺乏全局统一的联系,将跨场景的语义一致性推向3D表征学习。为了解决上述挑战,我们提出了一个CSC框架,该框架将场景级别的语义一致性置于核心位置,从而桥接了不同场景中相似语义片段的连接。为了实现这一目标,我们结合了视觉基础模型提供的连贯语义线索和来自互补多模态信息的知识丰富的跨场景原型。这使我们能够训练一个通用的3D预训练模型,该模型能够以更少的微调工作促进各种下游任务。在nuScenes上,使用特定于任务的3D网络,我们在语义分割(+1.4% mIoU)、目标检测(+1.0% mAP)和平全景分割(+3.0% PQ)方面实现了优于SOTA预训练方法的一致改进。

🔬 方法详解

问题定义:现有3D预训练方法主要关注帧级别的一致性,即在单个图像的2D和3D信息之间建立联系。这种方法忽略了不同场景之间相同语义图元的冲突,例如,不同场景中的“汽车”可能由于视角、光照等因素导致表征差异较大,从而阻碍了模型学习通用的3D表征。此外,缺乏全局的跨场景语义一致性约束,使得模型难以将不同场景中的相似语义信息联系起来。

核心思路:论文的核心思路是引入场景级别的语义一致性,即让模型学习到不同场景中相同语义的图元应该具有相似的表征。为了实现这一目标,论文利用视觉基础模型提供的语义线索和多模态信息构建跨场景原型,从而指导模型的预训练过程。通过这种方式,模型可以学习到更加通用和鲁棒的3D表征。

技术框架:CSC框架主要包含以下几个模块:1) 3D场景表示模块:用于将3D场景数据转换为可供模型处理的特征表示。2) 视觉基础模型:用于提取场景中每个图元的语义信息。3) 跨场景原型构建模块:利用视觉基础模型和多模态信息构建跨场景的语义原型。4) 场景级语义一致性损失:用于约束模型学习到具有场景级语义一致性的3D表征。整体流程是,首先利用3D场景表示模块提取场景特征,然后利用视觉基础模型提取语义信息,接着构建跨场景原型,最后通过场景级语义一致性损失来训练模型。

关键创新:论文的关键创新在于提出了场景级别的语义一致性约束,并利用视觉基础模型和多模态信息构建跨场景原型。与现有方法相比,CSC框架能够更好地解决跨场景语义冲突问题,并学习到更加通用和鲁棒的3D表征。

关键设计:论文的关键设计包括:1) 利用CLIP等视觉基础模型提取语义信息。2) 利用多模态信息(如图像、点云)构建跨场景原型。3) 设计场景级语义一致性损失函数,例如对比学习损失,鼓励相同语义的图元具有相似的表征,不同语义的图元具有不同的表征。具体的损失函数形式和参数设置需要根据具体任务进行调整。

🖼️ 关键图片

fig_0
img_1

📊 实验亮点

实验结果表明,CSC框架在nuScenes数据集上取得了显著的性能提升。在语义分割任务上,mIoU提升了1.4%;在目标检测任务上,mAP提升了1.0%;在全景分割任务上,PQ提升了3.0%。这些结果表明,CSC框架能够有效地提升3D感知模型的性能。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、三维场景理解等领域。通过预训练得到的通用3D表征,可以提升模型在各种下游任务上的性能,并降低对大量标注数据的依赖。未来,该方法有望推动3D感知技术在更广泛的实际场景中的应用。

📄 摘要(原文)

An effective pre-training framework with universal 3D representations is extremely desired in perceiving large-scale dynamic scenes. However, establishing such an ideal framework that is both task-generic and label-efficient poses a challenge in unifying the representation of the same primitive across diverse scenes. The current contrastive 3D pre-training methods typically follow a frame-level consistency, which focuses on the 2D-3D relationships in each detached image. Such inconsiderate consistency greatly hampers the promising path of reaching an universal pre-training framework: (1) The cross-scene semantic self-conflict, i.e., the intense collision between primitive segments of the same semantics from different scenes; (2) Lacking a globally unified bond that pushes the cross-scene semantic consistency into 3D representation learning. To address above challenges, we propose a CSC framework that puts a scene-level semantic consistency in the heart, bridging the connection of the similar semantic segments across various scenes. To achieve this goal, we combine the coherent semantic cues provided by the vision foundation model and the knowledge-rich cross-scene prototypes derived from the complementary multi-modality information. These allow us to train a universal 3D pre-training model that facilitates various downstream tasks with less fine-tuning efforts. Empirically, we achieve consistent improvements over SOTA pre-training approaches in semantic segmentation (+1.4% mIoU), object detection (+1.0% mAP), and panoptic segmentation (+3.0% PQ) using their task-specific 3D network on nuScenes. Code is released at https://github.com/chenhaomingbob/CSC, hoping to inspire future research.