Single-Frame Point-Pixel Registration via Supervised Cross-Modal Feature Matching

📄 arXiv: 2506.22784v1 📥 PDF

作者: Yu Han, Zhiwei Huang, Yanting Zhang, Fangjun Ding, Shen Cai, Rui Fan

分类: cs.CV, cs.AI, cs.RO

发布日期: 2025-06-28


💡 一句话要点

提出基于监督跨模态特征匹配的单帧点云-像素配准方法

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 点云配准 图像配准 跨模态匹配 单帧激光雷达 自动驾驶

📋 核心要点

  1. 现有方法难以有效弥合激光雷达点云和相机图像之间的模态差异,尤其是在单帧稀疏点云下,导致配准精度不高。
  2. 该论文提出一种检测器无关的框架,通过将激光雷达强度图投影到2D视图,并使用注意力机制进行跨模态特征匹配,实现直接点-像素配准。
  3. 实验结果表明,该方法在KITTI、nuScenes等数据集上取得了SOTA性能,即使在单帧激光雷达输入下,也优于依赖点云累积的方法。

📝 摘要(中文)

激光雷达点云与相机图像之间的点-像素配准是自动驾驶和机器人感知中的一项基础但具有挑战性的任务。一个关键难点在于非结构化点云和结构化图像之间的模态差异,尤其是在稀疏的单帧激光雷达设置下。现有方法通常分别从点云和图像中提取特征,然后依赖于手工设计的或学习的匹配策略。这种分离编码无法有效地弥合模态差距,更关键的是,这些方法难以应对单帧激光雷达的稀疏性和噪声,通常需要点云累积或额外的先验知识来提高可靠性。受到检测器无关匹配范例(例如MatchAnything)的最新进展的启发,我们重新审视了基于投影的方法,并引入了用于激光雷达和相机视图之间直接点-像素匹配的检测器无关框架。具体来说,我们将激光雷达强度图从激光雷达视角投影到2D视图中,并将其输入到基于注意力的检测器无关匹配网络中,从而无需依赖多帧累积即可实现跨模态对应关系估计。为了进一步提高匹配可靠性,我们引入了一种可重复性评分机制,该机制充当软可见性先验。这引导网络抑制低强度变化区域中不可靠的匹配,从而提高稀疏输入下的鲁棒性。在KITTI、nuScenes和MIAS-LCEC-TF70基准上的大量实验表明,我们的方法实现了最先进的性能,在nuScenes上优于先前的方法(甚至那些依赖于累积点云的方法),尽管仅使用单帧激光雷达。

🔬 方法详解

问题定义:论文旨在解决单帧激光雷达点云与相机图像之间的精确配准问题。现有方法通常依赖于分别提取点云和图像的特征,然后使用手工或学习的匹配策略。这种分离的编码方式无法有效弥合点云和图像之间的模态差异,尤其是在单帧激光雷达数据稀疏且噪声大的情况下,导致配准精度和鲁棒性不足。

核心思路:论文的核心思路是借鉴detector-free matching的思想,直接在投影后的激光雷达强度图和相机图像之间进行跨模态特征匹配,避免了传统方法中分别提取特征带来的信息损失。通过引入可重复性评分机制,抑制低强度变化区域的不可靠匹配,进一步提高配准的鲁棒性。

技术框架:整体框架包含以下几个主要步骤:1) 将激光雷达点云投影到2D强度图;2) 将强度图和相机图像输入到基于注意力的detector-free matching网络中;3) 网络输出点-像素之间的对应关系;4) 使用可重复性评分机制对匹配结果进行过滤,抑制不可靠的匹配。

关键创新:该论文的关键创新在于:1) 提出了一种detector-free的跨模态匹配框架,可以直接在激光雷达强度图和相机图像之间进行匹配,避免了传统方法中分别提取特征带来的信息损失;2) 引入了可重复性评分机制,可以有效地抑制低强度变化区域的不可靠匹配,提高配准的鲁棒性。

关键设计:论文中使用了基于注意力的网络结构来进行跨模态特征匹配,具体网络结构未知。可重复性评分机制的具体实现方式未知,但其核心思想是根据激光雷达强度图的局部变化来评估匹配的可靠性。损失函数未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在nuScenes数据集上取得了SOTA性能,即使只使用单帧激光雷达数据,也优于那些使用多帧累积点云的方法。这表明该方法在处理稀疏点云数据方面具有显著优势。在其他数据集(如KITTI和MIAS-LCEC-TF70)上也取得了优异的性能,验证了该方法的泛化能力。

🎯 应用场景

该研究成果可广泛应用于自动驾驶、机器人导航、三维重建等领域。精确的点云-像素配准是环境感知和定位的关键技术,能够提高自动驾驶系统的安全性和可靠性,并为机器人提供更准确的环境信息,从而实现更智能的自主行为。未来,该技术有望应用于无人配送、智能安防、工业自动化等领域。

📄 摘要(原文)

Point-pixel registration between LiDAR point clouds and camera images is a fundamental yet challenging task in autonomous driving and robotic perception. A key difficulty lies in the modality gap between unstructured point clouds and structured images, especially under sparse single-frame LiDAR settings. Existing methods typically extract features separately from point clouds and images, then rely on hand-crafted or learned matching strategies. This separate encoding fails to bridge the modality gap effectively, and more critically, these methods struggle with the sparsity and noise of single-frame LiDAR, often requiring point cloud accumulation or additional priors to improve reliability. Inspired by recent progress in detector-free matching paradigms (e.g. MatchAnything), we revisit the projection-based approach and introduce the detector-free framework for direct point-pixel matching between LiDAR and camera views. Specifically, we project the LiDAR intensity map into a 2D view from the LiDAR perspective and feed it into an attention-based detector-free matching network, enabling cross-modal correspondence estimation without relying on multi-frame accumulation. To further enhance matching reliability, we introduce a repeatability scoring mechanism that acts as a soft visibility prior. This guides the network to suppress unreliable matches in regions with low intensity variation, improving robustness under sparse input. Extensive experiments on KITTI, nuScenes, and MIAS-LCEC-TF70 benchmarks demonstrate that our method achieves state-of-the-art performance, outperforming prior approaches on nuScenes (even those relying on accumulated point clouds), despite using only single-frame LiDAR.