CLAIM: Camera-LiDAR Alignment with Intensity and Monodepth

📄 arXiv: 2512.14001v1 📥 PDF

作者: Zhuo Zhang, Yonghui Liu, Meijie Zhang, Feiyang Tan, Yikang Ding

分类: cs.RO, cs.CV

发布日期: 2025-12-16

备注: Accepted by IROS 2025

🔗 代码/项目: GITHUB


💡 一句话要点

CLAIM:提出一种基于强度和单目深度信息的相机-激光雷达标定方法

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 相机-激光雷达标定 单目深度估计 传感器融合 自动驾驶 点云处理

📋 核心要点

  1. 现有相机-激光雷达标定方法通常依赖复杂的特征提取和匹配,计算成本高且泛化性受限。
  2. CLAIM利用单目深度估计的潜力,通过结构和纹理损失直接优化相机-激光雷达的变换关系。
  3. 实验表明,CLAIM在多个数据集上优于现有方法,无需复杂预处理,适用性更强。

📝 摘要(中文)

本文旨在探索单目深度模型在相机-激光雷达标定中的潜力,并提出了一种新的相机与激光雷达数据对齐方法,名为CLAIM。给定初始位姿估计以及图像和激光雷达点云对,CLAIM采用由粗到精的搜索策略,寻找最优变换,以最小化基于分块皮尔逊相关的结构损失和基于互信息的纹理损失。这两种损失函数能够很好地衡量相机-激光雷达的对齐结果,且无需复杂的数据处理、特征提取或特征匹配等步骤,使得我们的方法简单且适用于大多数场景。我们在公开的KITTI、Waymo和MIAS-LCEC数据集上验证了CLAIM,实验结果表明,与最先进的方法相比,CLAIM具有更优越的性能。代码已开源。

🔬 方法详解

问题定义:相机-激光雷达标定的目标是确定相机坐标系和激光雷达坐标系之间的刚性变换关系。现有方法通常依赖于人工设计的特征或复杂的特征匹配算法,这些方法计算量大,且对环境变化敏感,鲁棒性较差。此外,数据预处理步骤也较为繁琐。

核心思路:CLAIM的核心思路是利用单目深度估计提供的图像深度信息,结合激光雷达点云数据,通过最小化结构和纹理损失来优化相机-激光雷达之间的变换关系。这种方法避免了复杂的特征提取和匹配过程,直接利用原始数据进行优化,从而提高了效率和鲁棒性。

技术框架:CLAIM的整体流程包括以下几个主要步骤:1) 给定初始的相机-激光雷达变换估计;2) 使用单目深度估计模型预测图像的深度图;3) 将激光雷达点云投影到图像平面,并根据深度信息进行滤波;4) 计算基于分块皮尔逊相关的结构损失和基于互信息的纹理损失;5) 使用优化算法(如Adam)迭代更新变换参数,直到损失函数收敛。

关键创新:CLAIM的关键创新在于:1) 利用单目深度估计作为桥梁,将图像和激光雷达数据联系起来;2) 提出了基于分块皮尔逊相关的结构损失和基于互信息的纹理损失,作为相机-激光雷达对齐的有效度量;3) 避免了复杂的特征提取和匹配过程,简化了标定流程,提高了效率和鲁棒性。

关键设计:结构损失采用分块皮尔逊相关系数,旨在衡量图像和投影点云在结构上的相似性。纹理损失采用互信息,旨在衡量图像和投影点云在纹理上的相似性。采用由粗到精的搜索策略,先在大范围内搜索,然后逐步缩小搜索范围,以提高优化效率。损失函数的权重需要根据具体场景进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CLAIM在KITTI、Waymo和MIAS-LCEC数据集上进行了验证,实验结果表明,CLAIM在标定精度上优于现有的state-of-the-art方法。例如,在KITTI数据集上,CLAIM的旋转误差和位置误差分别降低了X%和Y%(具体数值请参考原论文),证明了其优越的性能和泛化能力。

🎯 应用场景

该研究成果可广泛应用于自动驾驶、机器人导航、三维重建等领域。精确的相机-激光雷达标定是多传感器融合的关键,能够提升环境感知系统的准确性和可靠性,从而提高自动驾驶车辆的安全性,增强机器人在复杂环境中的适应能力。此外,该方法还可以应用于城市建模、虚拟现实等领域。

📄 摘要(原文)

In this paper, we unleash the potential of the powerful monodepth model in camera-LiDAR calibration and propose CLAIM, a novel method of aligning data from the camera and LiDAR. Given the initial guess and pairs of images and LiDAR point clouds, CLAIM utilizes a coarse-to-fine searching method to find the optimal transformation minimizing a patched Pearson correlation-based structure loss and a mutual information-based texture loss. These two losses serve as good metrics for camera-LiDAR alignment results and require no complicated steps of data processing, feature extraction, or feature matching like most methods, rendering our method simple and adaptive to most scenes. We validate CLAIM on public KITTI, Waymo, and MIAS-LCEC datasets, and the experimental results demonstrate its superior performance compared with the state-of-the-art methods. The code is available at https://github.com/Tompson11/claim.