UniLiPs: Unified LiDAR Pseudo-Labeling with Geometry-Grounded Dynamic Scene Decomposition

📄 arXiv: 2601.05105v1 📥 PDF

作者: Filippo Ghilotti, Samuel Brucker, Nahku Saidy, Matteo Matteucci, Mario Bijelic, Felix Heide

分类: cs.CV

发布日期: 2026-01-08


💡 一句话要点

UniLiPs:利用几何约束动态场景分解的统一LiDAR伪标签方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LiDAR伪标签 无监督学习 几何一致性 动态场景分解 自动驾驶 多模态融合 三维感知

📋 核心要点

  1. 自动驾驶中未标注的LiDAR数据蕴含丰富的3D几何信息,但缺乏人工标注使其价值大打折扣,成为感知研究的主要成本障碍。
  2. UniLiPs利用LiDAR扫描的时间几何一致性,将文本和2D视觉基础模型的线索提升并融合到3D空间,无需人工干预。
  3. 实验表明,该方法在语义分割和目标检测任务上优于现有伪标签方法,并显著提升了远距离深度预测的精度。

📝 摘要(中文)

本文提出了一种无监督多模态伪标签方法,旨在解决自动驾驶感知研究中缺乏人工标注LiDAR数据的问题。该方法利用LiDAR扫描的时间几何一致性,将文本和2D视觉基础模型的线索直接融合到3D空间中,无需任何人工输入。该方法依赖于从时间累积的LiDAR地图中学习到的强几何先验,以及一种新颖的迭代更新规则,该规则强制执行联合几何-语义一致性,并反过来从不一致性中检测移动对象。该方法同时生成3D语义标签、3D边界框和密集LiDAR扫描,并在三个数据集上展示了强大的泛化能力。实验结果表明,该方法优于现有的语义分割和目标检测伪标签方法,后者通常需要额外的人工监督。经验证,即使一小部分几何一致的、密集化的LiDAR数据也能将80-150米和150-250米范围内的深度预测MAE分别提高51.5%和22.0%。

🔬 方法详解

问题定义:自动驾驶场景中,获取大规模标注的LiDAR数据成本高昂,严重制约了3D感知算法的发展。现有的伪标签方法通常需要额外的人工监督或依赖于特定领域的知识,泛化能力有限。

核心思路:UniLiPs的核心在于利用LiDAR数据的时间几何一致性,构建一个自监督的伪标签框架。通过融合来自文本和2D视觉基础模型的线索,并结合几何先验,生成高质量的3D语义标签、3D边界框和密集LiDAR扫描。

技术框架:UniLiPs包含以下主要模块:1) 几何累积模块:利用连续的LiDAR扫描构建时间累积的LiDAR地图,增强几何信息的完整性。2) 多模态融合模块:将文本和2D视觉基础模型的线索投影到3D空间,生成初始的语义标签和边界框。3) 迭代更新模块:通过强制执行几何-语义一致性,并利用不一致性检测移动对象,不断优化伪标签的质量。

关键创新:UniLiPs的关键创新在于其完全无监督的伪标签生成方式,以及利用几何一致性进行迭代优化的策略。与现有方法相比,UniLiPs无需任何人工标注,并且能够同时生成3D语义标签、3D边界框和密集LiDAR扫描。

关键设计:该方法使用了一种新颖的迭代更新规则,该规则交替地执行几何一致性和语义一致性。几何一致性通过最小化点云之间的距离来实现,语义一致性通过最大化语义标签的置信度来实现。此外,该方法还使用了一种基于不一致性的移动对象检测方法,以进一步提高伪标签的质量。具体的损失函数和网络结构细节在论文中有详细描述,但此处不赘述。

📊 实验亮点

实验结果表明,UniLiPs在三个数据集上均取得了良好的性能。与现有的语义分割和目标检测伪标签方法相比,UniLiPs无需任何人工监督,并且能够生成更高质量的伪标签。此外,即使一小部分几何一致的、密集化的LiDAR数据也能将80-150米和150-250米范围内的深度预测MAE分别提高51.5%和22.0%。

🎯 应用场景

UniLiPs具有广泛的应用前景,可用于自动驾驶、机器人导航、三维重建等领域。该方法能够显著降低标注成本,加速3D感知算法的开发和部署。通过提供高质量的伪标签数据,UniLiPs可以促进自动驾驶系统在复杂场景下的鲁棒性和安全性。

📄 摘要(原文)

Unlabeled LiDAR logs, in autonomous driving applications, are inherently a gold mine of dense 3D geometry hiding in plain sight - yet they are almost useless without human labels, highlighting a dominant cost barrier for autonomous-perception research. In this work we tackle this bottleneck by leveraging temporal-geometric consistency across LiDAR sweeps to lift and fuse cues from text and 2D vision foundation models directly into 3D, without any manual input. We introduce an unsupervised multi-modal pseudo-labeling method relying on strong geometric priors learned from temporally accumulated LiDAR maps, alongside with a novel iterative update rule that enforces joint geometric-semantic consistency, and vice-versa detecting moving objects from inconsistencies. Our method simultaneously produces 3D semantic labels, 3D bounding boxes, and dense LiDAR scans, demonstrating robust generalization across three datasets. We experimentally validate that our method compares favorably to existing semantic segmentation and object detection pseudo-labeling methods, which often require additional manual supervision. We confirm that even a small fraction of our geometrically consistent, densified LiDAR improves depth prediction by 51.5% and 22.0% MAE in the 80-150 and 150-250 meters range, respectively.