Forest canopy height estimation from satellite RGB imagery using large-scale airborne LiDAR-derived training data and monocular depth estimation
作者: Yongkang Lai, Xihan Mu, Dasheng Fan, Donghui Xie, Shanxin Guo, Wenli Huang, Tianjie Zhao, Guangjian Yan
分类: cs.CV, cs.LG
发布日期: 2026-02-06 (更新: 2026-02-09)
💡 一句话要点
利用大规模机载LiDAR数据训练单目深度估计模型,实现卫星RGB影像森林冠层高度精确估计
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 森林冠层高度估计 单目深度估计 机载LiDAR 卫星RGB影像 深度学习 遥感 PlanetScope Depth Anything V2
📋 核心要点
- 现有星载LiDAR数据空间稀疏且存在不确定性,限制了高分辨率森林冠层高度制图的精度和覆盖范围。
- 利用大规模机载LiDAR数据训练单目深度估计模型,直接从卫星RGB影像生成高分辨率冠层高度模型。
- 实验结果表明,该方法显著提高了冠层高度估计的精度,优于现有全球米分辨率CHM产品。
📝 摘要(中文)
大规模、高分辨率的森林冠层高度制图对于理解区域和全球碳循环及水循环至关重要。星载LiDAR任务,如ICESat-2和GEDI,提供了全球森林结构的观测数据,但空间分布稀疏且存在固有不确定性。相比之下,近地面LiDAR平台,如机载和无人机LiDAR系统,能够提供更精细的森林冠层结构测量数据,并且越来越多的国家公开了这些数据集。本研究利用约16000平方公里的冠层高度模型(CHM)训练了一个最先进的单目深度估计模型Depth Anything V2,这些CHM来源于多个国家公开的机载LiDAR点云和相关产品,以及3米分辨率的PlanetScope和机载RGB影像。训练后的模型,命名为Depth2CHM,可以直接从PlanetScope RGB影像估计空间连续的CHM。在中国(约1平方公里)和美国(约116平方公里)的站点进行了独立验证。结果表明,Depth2CHM能够准确估计冠层高度,在这两个站点的偏差分别为0.59米和0.41米,均方根误差(RMSE)分别为2.54米和5.75米。与现有的全球米分辨率CHM产品相比,平均绝对误差降低了约1.5米,RMSE降低了约2米。这些结果表明,利用大规模机载LiDAR衍生的冠层高度数据训练的单目深度估计网络为从卫星RGB影像进行高分辨率、空间连续的森林冠层高度估计提供了一条有前景且可扩展的途径。
🔬 方法详解
问题定义:论文旨在解决利用卫星RGB影像进行高精度、空间连续的森林冠层高度估计问题。现有星载LiDAR数据虽然覆盖范围广,但空间分辨率低且存在误差。而直接使用卫星RGB影像进行冠层高度估计精度较低。
核心思路:论文的核心思路是利用大规模的机载LiDAR数据训练一个单目深度估计模型,该模型能够从卫星RGB影像中预测深度信息,进而生成高分辨率的冠层高度模型。这样既能利用卫星影像的广覆盖性,又能结合机载LiDAR数据的高精度,实现优势互补。
技术框架:整体框架包括以下几个主要步骤:1) 数据准备:收集并处理大规模的机载LiDAR点云数据,生成冠层高度模型(CHM)。同时,收集对应的卫星RGB影像。2) 模型训练:使用CHM作为真值,训练单目深度估计模型Depth Anything V2。3) 模型推理:使用训练好的模型,输入卫星RGB影像,生成预测的CHM。4) 精度验证:在中国和美国的独立站点进行验证,评估模型的性能。
关键创新:最重要的技术创新点在于利用大规模的机载LiDAR数据来训练单目深度估计模型。这使得模型能够学习到RGB影像与冠层高度之间的复杂关系,从而实现高精度的冠层高度估计。与传统方法相比,该方法无需复杂的特征工程和人工干预,具有更高的自动化程度和可扩展性。
关键设计:论文使用了Depth Anything V2作为单目深度估计模型,该模型具有强大的深度预测能力。训练数据包括约16000平方公里的CHM和对应的3米分辨率PlanetScope RGB影像。损失函数未知,但深度估计任务通常使用L1损失或Huber损失。具体的网络结构细节请参考Depth Anything V2论文。
📊 实验亮点
实验结果表明,Depth2CHM模型能够准确估计冠层高度,在中国和美国的独立验证站点,偏差分别为0.59米和0.41米,RMSE分别为2.54米和5.75米。与现有的全球米分辨率CHM产品相比,平均绝对误差降低了约1.5米,RMSE降低了约2米。这些结果表明,该方法具有显著的性能优势。
🎯 应用场景
该研究成果可广泛应用于森林资源调查、碳储量评估、生物多样性保护、生态系统监测等领域。通过高精度、空间连续的森林冠层高度制图,可以更好地了解森林的结构和功能,为科学研究和政策制定提供重要依据。未来,该方法有望推广到其他植被类型和区域,实现全球范围的高精度植被高度制图。
📄 摘要(原文)
Large-scale, high-resolution forest canopy height mapping plays a crucial role in understanding regional and global carbon and water cycles. Spaceborne LiDAR missions, including the Ice, Cloud, and Land Elevation Satellite-2 (ICESat-2) and the Global Ecosystem Dynamics Investigation (GEDI), provide global observations of forest structure but are spatially sparse and subject to inherent uncertainties. In contrast, near-surface LiDAR platforms, such as airborne and unmanned aerial vehicle (UAV) LiDAR systems, offer much finer measurements of forest canopy structure, and a growing number of countries have made these datasets openly available. In this study, a state-of-the-art monocular depth estimation model, Depth Anything V2, was trained using approximately 16,000 km2 of canopy height models (CHMs) derived from publicly available airborne LiDAR point clouds and related products across multiple countries, together with 3 m resolution PlanetScope and airborne RGB imagery. The trained model, referred to as Depth2CHM, enables the estimation of spatially continuous CHMs directly from PlanetScope RGB imagery. Independent validation was conducted at sites in China (approximately 1 km2) and the United States (approximately 116 km2). The results showed that Depth2CHM could accurately estimate canopy height, with biases of 0.59 m and 0.41 m and root mean square errors (RMSEs) of 2.54 m and 5.75 m for these two sites, respectively. Compared with an existing global meter-resolution CHM product, the mean absolute error is reduced by approximately 1.5 m and the RMSE by approximately 2 m. These results demonstrated that monocular depth estimation networks trained with large-scale airborne LiDAR-derived canopy height data provide a promising and scalable pathway for high-resolution, spatially continuous forest canopy height estimation from satellite RGB imagery.