Stereo-LiDAR Fusion by Semi-Global Matching With Discrete Disparity-Matching Cost and Semidensification
作者: Yasuhiro Yao, Ryoichi Ishikawa, Takeshi Oishi
分类: cs.CV, cs.RO
发布日期: 2025-04-07
备注: 8 pages, 8 figures, 7 tables
期刊: in IEEE Robotics and Automation Letters, vol. 10, no. 5, pp. 4548-4555, May 2025
💡 一句话要点
提出基于半全局匹配和离散视差匹配代价的立体视觉-激光雷达融合方法
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 立体视觉 激光雷达融合 半全局匹配 深度估计 实时性 非学习方法 KITTI数据集
📋 核心要点
- 现有立体视觉-激光雷达融合方法在实时性和精度上存在挑战,尤其是在复杂环境和不同传感器配置下。
- 提出一种基于半全局匹配(SGM)的立体视觉-激光雷达融合框架,结合离散视差匹配代价(DDC)和激光雷达半稠密化。
- 实验结果表明,该方法在KITTI数据集上优于现有实时方法,并在不同场景下表现出良好的适应性。
📝 摘要(中文)
本文提出了一种实时的、非学习的深度估计方法,该方法融合了激光雷达(LiDAR)数据和立体相机输入。该方法包含三个关键技术:具有离散视差匹配代价(DDC)的半全局匹配(SGM)立体视觉、激光雷达视差的半稠密化以及结合立体图像和激光雷达数据的一致性检查。这些组件都设计为可在GPU上并行化,以实现实时性能。在KITTI数据集上进行评估时,该方法实现了2.79%的误差率,优于之前的最先进的实时立体视觉-激光雷达融合方法(误差率为3.05%)。此外,还在各种场景中测试了该方法,包括不同的激光雷达点密度、不同的天气条件和室内环境,以证明其高适应性。我们认为,该方法的实时性和非学习性使其在机器人和自动化应用中具有很高的实用性。
🔬 方法详解
问题定义:论文旨在解决立体视觉和激光雷达融合中的深度估计问题,现有方法通常难以在实时性和精度之间取得平衡,尤其是在光照变化、遮挡和稀疏激光雷达数据的情况下。此外,一些方法依赖于深度学习,计算成本高昂,泛化能力受限。
核心思路:论文的核心思路是利用立体视觉提供稠密的深度信息,并利用激光雷达提供稀疏但准确的深度信息,通过半全局匹配(SGM)框架进行融合,同时引入离散视差匹配代价(DDC)来提高匹配精度。激光雷达数据的半稠密化用于增加激光雷达信息的密度,从而更好地指导立体匹配。
技术框架:整体流程包括:1) 立体图像校正和预处理;2) 激光雷达数据预处理和半稠密化;3) 基于SGM和DDC的立体匹配,利用激光雷达数据作为约束;4) 立体视觉和激光雷达数据的一致性检查,去除错误匹配点。所有步骤都设计为可在GPU上并行执行。
关键创新:主要创新点在于:1) 提出了一种基于离散视差匹配代价(DDC)的SGM立体匹配方法,提高了匹配精度;2) 提出了一种激光雷达数据的半稠密化方法,增加了激光雷达数据的利用率;3) 提出了一种结合立体视觉和激光雷达数据的一致性检查方法,有效去除了错误匹配点。与现有方法的本质区别在于,该方法是一种非学习的实时方法,具有更高的效率和泛化能力。
关键设计:DDC的具体形式未知,但推测是针对SGM中代价计算函数的一种改进,使其更适合于立体视觉-激光雷达融合。激光雷达半稠密化的具体方法未知,但目标是增加激光雷达点云的密度,可能涉及到插值或邻域搜索等技术。一致性检查的具体方法未知,但可能涉及到比较立体视觉和激光雷达数据的深度值,并根据一定的阈值判断是否一致。
🖼️ 关键图片
📊 实验亮点
该方法在KITTI数据集上取得了显著的性能提升,误差率降低至2.79%,优于之前的最先进的实时立体视觉-激光雷达融合方法(误差率为3.05%)。此外,该方法在不同激光雷达点密度、不同天气条件和室内环境等多种场景下都表现出良好的适应性,验证了其鲁棒性和泛化能力。
🎯 应用场景
该研究成果可广泛应用于机器人导航、自动驾驶、三维重建等领域。实时性和高精度使其特别适用于需要快速响应和精确感知的场景,例如无人车的环境感知、移动机器人的自主导航以及工业自动化中的物体识别和定位。该方法无需训练数据的特性,也使其在数据获取困难或场景变化频繁的应用中具有优势。
📄 摘要(原文)
We present a real-time, non-learning depth estimation method that fuses Light Detection and Ranging (LiDAR) data with stereo camera input. Our approach comprises three key techniques: Semi-Global Matching (SGM) stereo with Discrete Disparity-matching Cost (DDC), semidensification of LiDAR disparity, and a consistency check that combines stereo images and LiDAR data. Each of these components is designed for parallelization on a GPU to realize real-time performance. When it was evaluated on the KITTI dataset, the proposed method achieved an error rate of 2.79\%, outperforming the previous state-of-the-art real-time stereo-LiDAR fusion method, which had an error rate of 3.05\%. Furthermore, we tested the proposed method in various scenarios, including different LiDAR point densities, varying weather conditions, and indoor environments, to demonstrate its high adaptability. We believe that the real-time and non-learning nature of our method makes it highly practical for applications in robotics and automation.