UniLiPs: Unified LiDAR Pseudo-Labeling with Geometry-Grounded Dynamic Scene Decomposition
作者: Filippo Ghilotti, Samuel Brucker, Nahku Saidy, Matteo Matteucci, Mario Bijelic, Felix Heide
分类: cs.CV
发布日期: 2026-01-08
💡 一句话要点
UniLiPs:利用几何约束动态场景分解的统一LiDAR伪标签方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LiDAR伪标签 自监督学习 几何一致性 动态场景分解 多模态融合
📋 核心要点
- 现有LiDAR数据标注成本高昂,阻碍了自动驾驶感知研究的进展,缺乏有效利用无标签LiDAR数据的方法。
- UniLiPs利用时间几何一致性,融合文本和2D视觉信息,生成高质量的3D伪标签,无需人工干预。
- 实验表明,该方法在语义分割和目标检测任务上优于现有伪标签方法,并显著提升了远距离深度预测的精度。
📝 摘要(中文)
本文提出了一种无需人工标注的LiDAR伪标签方法,旨在解决自动驾驶感知研究中数据标注成本高昂的问题。该方法利用LiDAR扫描的时间几何一致性,将文本和2D视觉基础模型的信息融入3D空间。通过从时间累积的LiDAR地图中学习到的强几何先验,以及一种新颖的迭代更新规则,该方法能够同时生成3D语义标签、3D bounding box和稠密LiDAR扫描,并在三个数据集上展示了良好的泛化能力。实验结果表明,该方法优于现有的语义分割和目标检测伪标签方法,并且即使使用少量几何一致的稠密LiDAR数据,也能显著提高深度预测的准确性,在80-150米和150-250米范围内,MAE分别降低了51.5%和22.0%。
🔬 方法详解
问题定义:自动驾驶领域存在大量的未标注LiDAR数据,这些数据蕴含丰富的3D几何信息,但缺乏人工标注使其难以直接用于模型训练。现有的伪标签方法通常需要额外的人工监督或对特定场景进行优化,泛化能力有限,且难以充分利用LiDAR数据的时序一致性。
核心思路:UniLiPs的核心在于利用LiDAR扫描的时间几何一致性,构建一个自监督的伪标签生成框架。通过累积LiDAR数据构建稠密的3D地图,并利用几何先验约束,将2D视觉和文本信息投影到3D空间,从而生成高质量的伪标签。同时,通过迭代更新规则,强化几何和语义的一致性,并检测运动物体。
技术框架:UniLiPs包含以下主要模块:1) 几何累积模块:利用LiDAR扫描的时序信息,构建稠密的3D地图,并学习几何先验。2) 多模态融合模块:将2D视觉和文本信息投影到3D空间,生成初始的伪标签。3) 迭代更新模块:通过几何和语义一致性约束,迭代优化伪标签,并检测运动物体。4) 伪标签生成模块:生成3D语义标签、3D bounding box和稠密LiDAR扫描。
关键创新:UniLiPs的关键创新在于:1) 提出了一种统一的框架,能够同时生成3D语义标签、3D bounding box和稠密LiDAR扫描。2) 利用时间几何一致性,构建自监督的伪标签生成方法,无需人工干预。3) 引入迭代更新规则,强化几何和语义的一致性,并检测运动物体。与现有方法相比,UniLiPs能够更有效地利用未标注的LiDAR数据,并生成更高质量的伪标签。
关键设计:在几何累积模块中,使用了基于ICP(Iterative Closest Point)的配准算法,将不同时刻的LiDAR扫描对齐到同一坐标系下。在多模态融合模块中,使用了基于Transformer的模型,将2D视觉和文本信息映射到3D空间。在迭代更新模块中,使用了交叉熵损失函数和Dice损失函数,分别优化语义分割和目标检测任务。运动物体检测通过比较相邻帧之间的点云差异实现。
📊 实验亮点
实验结果表明,UniLiPs在三个数据集上都取得了良好的性能。在语义分割任务上,UniLiPs优于现有的伪标签方法。在目标检测任务上,UniLiPs能够生成高质量的3D bounding box。此外,即使使用少量几何一致的稠密LiDAR数据,也能显著提高深度预测的准确性,在80-150米和150-250米范围内,MAE分别降低了51.5%和22.0%。
🎯 应用场景
UniLiPs在自动驾驶领域具有广泛的应用前景,可以用于提高感知系统的性能和鲁棒性。通过利用大量的未标注LiDAR数据,可以降低数据标注成本,加速模型的训练和部署。此外,该方法还可以应用于机器人导航、三维重建等领域,为相关研究提供有力的支持。未来,可以进一步探索如何将UniLiPs与其他自监督学习方法相结合,以实现更高效的LiDAR数据利用。
📄 摘要(原文)
Unlabeled LiDAR logs, in autonomous driving applications, are inherently a gold mine of dense 3D geometry hiding in plain sight - yet they are almost useless without human labels, highlighting a dominant cost barrier for autonomous-perception research. In this work we tackle this bottleneck by leveraging temporal-geometric consistency across LiDAR sweeps to lift and fuse cues from text and 2D vision foundation models directly into 3D, without any manual input. We introduce an unsupervised multi-modal pseudo-labeling method relying on strong geometric priors learned from temporally accumulated LiDAR maps, alongside with a novel iterative update rule that enforces joint geometric-semantic consistency, and vice-versa detecting moving objects from inconsistencies. Our method simultaneously produces 3D semantic labels, 3D bounding boxes, and dense LiDAR scans, demonstrating robust generalization across three datasets. We experimentally validate that our method compares favorably to existing semantic segmentation and object detection pseudo-labeling methods, which often require additional manual supervision. We confirm that even a small fraction of our geometrically consistent, densified LiDAR improves depth prediction by 51.5% and 22.0% MAE in the 80-150 and 150-250 meters range, respectively.