Enhancing Monocular Height Estimation via Sparse LiDAR-Guided Correction
作者: Jian Song, Hongruixuan Chen, Naoto Yokoya
分类: cs.CV, eess.IV
发布日期: 2025-05-11 (更新: 2025-12-08)
备注: Accepted for publication in the ISPRS Journal of Photogrammetry and Remote Sensing
DOI: 10.1016/j.isprsjprs.2025.12.004
💡 一句话要点
提出稀疏LiDAR引导的校正方法,提升单目高程估计精度与鲁棒性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 单目高程估计 稀疏LiDAR 深度学习 高程校正 三维重建
📋 核心要点
- 单目高程估计面临结构线索不足的挑战,且传统高程数据获取成本高昂,限制了其应用。
- 利用公开的稀疏LiDAR数据,结合深度学习预测结果,构建全自动校正流程,提升精度和鲁棒性。
- 实验结果表明,该方法显著降低了平均绝对误差,并提高了F1HE得分,验证了其有效性。
📝 摘要(中文)
本文提出了一种全自动校正流程,该流程集成了来自ICESat-2的稀疏、不完美的全局LiDAR测量数据与深度学习预测结果,以提高单目高程估计(MHE)的精度和稳定性。该流程完全依赖于公开可用的模型和数据,只需要单个经过地理配准的光学图像即可生成校正后的高度图,从而实现低成本和全球可扩展的部署。此外,本文还建立了首个针对此任务的基准,评估了两种基于随机森林的方法、四种参数高效的微调方法以及完全微调方法。在六个不同的区域(0.5米分辨率,297平方公里)进行的实验表明,该方法取得了显著的提升,覆盖了东京、巴黎和圣保罗的城市核心区以及郊区和森林地区。最佳方法使MHE模型的平均绝对误差(MAE)降低了30.9%,F1HE得分提高了44.2%。对于单目深度估计(MDE)模型,MAE提高了24.1%,F1HE得分提高了25.1%。这些结果验证了本文提出的校正流程的有效性,并证明了稀疏全局LiDAR可以系统地加强MHE和MDE模型,从而实现可扩展且广泛可访问的3D高度映射。
🔬 方法详解
问题定义:本文旨在解决从甚高分辨率(VHR)光学图像中进行单目高程估计(MHE)时,由于结构线索有限以及传统高程数据(如机载LiDAR和多视点立体视觉)成本高昂和地理限制而导致的精度和鲁棒性问题。现有的MHE和单目深度估计(MDE)模型在不同光照和场景条件下的鲁棒性仍然有限。
核心思路:本文的核心思路是利用公开可用的稀疏LiDAR数据(ICESat-2)作为全局约束,对深度学习模型(MHE和MDE)的预测结果进行校正。通过融合稀疏但具有全局一致性的LiDAR数据,可以有效地纠正深度学习模型在局部区域的误差,从而提高整体的高程估计精度和鲁棒性。
技术框架:该方法包含一个全自动校正流程,主要包括以下几个阶段:1) 获取甚高分辨率光学图像和对应的稀疏LiDAR数据;2) 使用现有的MHE或MDE模型对光学图像进行高程/深度预测;3) 将稀疏LiDAR数据与深度学习预测结果进行配准和融合;4) 利用融合后的数据对深度学习预测结果进行校正,生成最终的校正后的高度图。
关键创新:本文最重要的技术创新点在于提出了一种利用稀疏全局LiDAR数据来校正深度学习高程/深度预测结果的有效方法。与传统的依赖密集高程数据的方法相比,该方法利用公开可用的稀疏LiDAR数据,降低了数据获取成本,并提高了方法的可扩展性。此外,本文还建立了首个针对此任务的基准数据集,为后续研究提供了便利。
关键设计:该方法的关键设计包括:1) 如何有效地将稀疏LiDAR数据与深度学习预测结果进行配准和融合;2) 如何设计校正算法,以充分利用LiDAR数据的全局约束,同时避免过度依赖LiDAR数据而忽略深度学习模型的局部细节;3) 针对不同的MHE和MDE模型,如何选择合适的微调策略,以获得最佳的校正效果。论文中评估了随机森林和多种微调策略。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在六个不同区域的0.5米分辨率图像上取得了显著的性能提升。对于MHE模型,平均绝对误差(MAE)降低了30.9%,F1HE得分提高了44.2%。对于MDE模型,MAE提高了24.1%,F1HE得分提高了25.1%。这些结果表明,该方法能够有效地利用稀疏LiDAR数据来校正深度学习模型的预测结果,从而显著提高高程估计的精度和鲁棒性。
🎯 应用场景
该研究成果可广泛应用于城市规划、环境监测、灾害评估、自动驾驶等领域。通过低成本的方式获取高精度的高程信息,可以为这些应用提供重要的基础数据支持,并促进相关技术的发展。未来,该方法有望应用于更大范围的地理区域,实现全球范围内的3D高度映射。
📄 摘要(原文)
Monocular height estimation (MHE) from very-high-resolution (VHR) optical imagery remains challenging due to limited structural cues and the high cost and geographic constraints of conventional elevation data such as airborne LiDAR and multi-view stereo. Although recent MHE and monocular depth estimation (MDE) models show strong performance, their robustness under varied illumination and scene conditions is still limited. We introduce a fully automated correction pipeline that integrates sparse, imperfect global LiDAR measurements from ICESat-2 with deep learning predictions to enhance accuracy and stability. The workflow relies entirely on publicly available models and data and requires only a single georeferenced optical image to produce corrected height maps, enabling low-cost and globally scalable deployment. We also establish the first benchmark for this task, evaluating two random forest based approaches, four parameter efficient fine tuning methods, and full fine tuning. Experiments across six diverse regions at 0.5 m resolution (297 km2), covering the urban cores of Tokyo, Paris, and Sao Paulo as well as suburban and forested areas, show substantial gains. The best method reduces the MHE model's mean absolute error (MAE) by 30.9 percent and improves its F1HE score by 44.2 percent. For the MDE model, MAE improves by 24.1 percent and the F1HE score by 25.1 percent. These results validate the effectiveness of our correction pipeline and demonstrate how sparse global LiDAR can systematically strengthen both MHE and MDE models, enabling scalable and widely accessible 3D height mapping.