Multimodal Urban Tree Detection from Satellite and Street-Level Imagery via Annotation-Efficient Deep Learning Strategies

📄 arXiv: 2604.03505 📥 PDF

作者: In Seon Kim, Ali Moghimi

分类: cs.CV

发布日期: 2026-04-07


💡 一句话要点

提出一种基于多模态图像和高效标注策略的城市树木检测方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 城市树木检测 多模态融合 卫星图像 街景图像 主动学习 半监督学习 领域自适应

📋 核心要点

  1. 传统城市树木测绘依赖人工,成本高昂且难以扩展,阻碍了环境监测和灾后评估等应用。
  2. 该研究提出结合卫星图像和街景图像的多模态框架,并结合领域自适应和主动学习等策略,降低标注成本。
  3. 实验结果表明,混合学习策略效果最佳,F1-score达到0.90,相比基线模型提升了12%,有效减少了误检和漏检。

📝 摘要(中文)

本研究提出了一种多模态框架,该框架集成了高分辨率卫星图像和地面谷歌街景图像,以在有限的标注条件下实现可扩展且详细的城市树木检测。该框架首先利用卫星图像定位树木候选区域,然后检索有针对性的地面视图以进行详细检测,从而显著减少低效的街景采样。为了解决标注瓶颈问题,使用领域自适应将知识从现有的标注数据集迁移到新的感兴趣区域。为了进一步减少人工工作量,我们评估了三种学习策略:半监督学习、主动学习以及结合两者的混合方法,并使用基于Transformer的检测模型。混合策略取得了最佳性能,F1-score为0.90,比基线模型提高了12%。相比之下,由于伪标签中的确认偏差,半监督学习表现出渐进的性能下降,而主动学习通过有针对性的人工干预来标记不确定或不正确的预测,从而稳步提高了结果。误差分析进一步表明,主动和混合策略减少了假阳性和假阴性。我们的发现强调了多模态方法和引导式标注对于可扩展、高标注效率的城市树木测绘的重要性,从而加强可持续城市规划。

🔬 方法详解

问题定义:城市树木的精确测绘对于环境可持续性和灾害缓解至关重要。然而,传统的人工调查成本高昂且难以扩展。现有的自动化系统受限于高标注成本和在不同城市场景中的泛化能力差。因此,需要一种能够以较低标注成本实现可扩展且精确的城市树木检测方法。

核心思路:该论文的核心思路是利用多模态数据(卫星图像和街景图像)的互补优势,并结合领域自适应和主动学习等策略,以减少对大量标注数据的依赖。卫星图像用于快速定位树木候选区域,街景图像用于详细检测,从而减少不必要的街景图像采样。

技术框架:该框架包含以下主要阶段:1) 利用卫星图像进行树木候选区域的粗略定位;2) 根据卫星图像的定位结果,检索相应的街景图像;3) 使用Transformer-based检测模型对街景图像进行树木检测;4) 使用领域自适应将知识从已标注数据集迁移到新的区域;5) 使用半监督学习、主动学习或混合策略来进一步减少人工标注工作量。

关键创新:该论文的关键创新在于:1) 提出了一种多模态融合框架,结合了卫星图像和街景图像的优势;2) 探索了多种高效标注策略,包括领域自适应、半监督学习、主动学习和混合策略,以减少人工标注成本;3) 提出了一种混合学习策略,结合了半监督学习和主动学习的优点,取得了最佳的性能。

关键设计:在主动学习中,选择不确定性最高的样本进行人工标注,例如模型预测置信度低的样本。在混合策略中,首先使用半监督学习生成伪标签,然后使用主动学习选择需要人工校正的样本。具体使用的Transformer-based检测模型结构未知,损失函数和参数设置也未明确说明。

📊 实验亮点

实验结果表明,混合学习策略取得了最佳性能,F1-score达到0.90,相比基线模型提高了12%。主动学习策略也表现出良好的性能,通过有针对性的人工干预,稳步提高了检测精度。误差分析表明,主动和混合策略能够有效减少假阳性和假阴性,提高了检测的准确性。

🎯 应用场景

该研究成果可应用于城市环境监测、灾后评估、城市规划和管理等领域。通过自动化的城市树木测绘,可以更高效地了解城市绿化状况,为制定更科学的城市发展政策提供数据支持。此外,该方法还可以扩展到其他城市地物检测任务,例如建筑物、道路等。

📄 摘要(原文)

Beyond the immediate biophysical benefits, urban trees play a foundational role in environmental sustainability and disaster mitigation. Precise mapping of urban trees is essential for environmental monitoring, post-disaster assessment, and strengthening policy. However, the transition from traditional, labor-intensive field surveys to scalable automated systems remains limited by high annotation costs and poor generalization across diverse urban scenarios. This study introduces a multimodal framework that integrates high-resolution satellite imagery with ground-level Google Street View to enable scalable and detailed urban tree detection under limited-annotation conditions. The framework first leverages satellite imagery to localize tree candidates and then retrieves targeted ground-level views for detailed detection, significantly reducing inefficient street-level sampling. To address the annotation bottleneck, domain adaptation is used to transfer knowledge from an existing annotated dataset to a new region of interest. To further minimize human effort, we evaluated three learning strategies: semi-supervised learning, active learning, and a hybrid approach combining both, using a transformer-based detection model. The hybrid strategy achieved the best performance with an F1-score of 0.90, representing a 12% improvement over the baseline model. In contrast, semi-supervised learning exhibited progressive performance degradation due to confirmation bias in pseudo-labeling, while active learning steadily improved results through targeted human intervention to label uncertain or incorrect predictions. Error analysis further showed that active and hybrid strategies reduced both false positives and false negatives. Our findings highlight the importance of a multimodal approach and guided annotation for scalable, annotation-efficient urban tree mapping to strengthen sustainable city planning.