Locate Anything on Earth: Advancing Open-Vocabulary Object Detection for Remote Sensing Community
作者: Jiancheng Pan, Yanxing Liu, Yuqian Fu, Muyuan Ma, Jiahao Li, Danda Pani Paudel, Luc Van Gool, Xiaomeng Huang
分类: cs.CV
发布日期: 2024-08-17 (更新: 2025-03-06)
备注: 15 pages, 11 figures
💡 一句话要点
提出LAE-DINO模型,解决遥感图像开放词汇目标检测中的领域泛化难题
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 遥感图像 开放词汇目标检测 领域泛化 动态词汇构建 视觉引导文本提示学习
📋 核心要点
- 现有开放词汇目标检测器主要在自然图像上训练,难以泛化到遥感图像,存在显著的领域差距。
- 论文提出LAE-DINO模型,通过动态词汇构建和视觉引导的文本提示学习,提升模型在遥感图像上的开放词汇检测能力。
- 实验结果表明,LAE-1M数据集和LAE-DINO模型在遥感目标检测基准测试中表现出色,验证了其有效性。
📝 摘要(中文)
本文旨在推进遥感领域的开放词汇目标检测技术。为此,作者将任务重新定义为“地球万物定位(LAE)”,目标是检测地球上的任何新概念。首先,开发了LAE-Label Engine,用于收集、自动标注和统一多达10个遥感数据集,创建了LAE-1M,这是一个首个具有广泛类别覆盖的大规模遥感目标检测数据集。其次,利用LAE-1M,提出并训练了新的LAE-DINO模型,这是首个用于LAE任务的开放词汇基础目标检测器,其特点是动态词汇构建(DVC)和视觉引导的文本提示学习(VisGT)模块。DVC为每个训练批次动态构建词汇,而VisGT将视觉特征映射到语义空间,从而增强文本特征。在DIOR、DOTAv2.0以及新引入的80类LAE-80C基准上进行了全面的实验。结果表明了LAE-1M数据集的优势和LAE-DINO方法的有效性。
🔬 方法详解
问题定义:遥感图像的开放词汇目标检测任务旨在检测图像中出现的任意物体,即使这些物体在训练集中没有明确标注。现有方法主要在自然图像上训练,由于遥感图像与自然图像之间存在显著的领域差异(例如视角、光照、分辨率等),导致模型在遥感图像上的泛化能力较差。因此,如何缩小领域差距,提升模型在遥感图像上的开放词汇检测性能是本文要解决的关键问题。
核心思路:本文的核心思路是构建一个大规模的遥感图像数据集LAE-1M,并在此基础上训练一个专门针对遥感图像的开放词汇目标检测器LAE-DINO。LAE-DINO通过动态词汇构建(DVC)和视觉引导的文本提示学习(VisGT)两个模块,来增强模型对遥感图像的理解和泛化能力。DVC旨在使模型能够适应不同的目标类别组合,而VisGT则旨在利用视觉信息来指导文本特征的学习,从而更好地将视觉特征与语义信息对齐。
技术框架:LAE-DINO模型的整体框架基于DINO检测器,并在此基础上添加了DVC和VisGT两个模块。整个流程如下:首先,输入遥感图像,通过DINO的视觉编码器提取视觉特征。然后,DVC模块根据当前训练批次中的目标类别动态构建词汇。接着,VisGT模块利用视觉特征来指导文本提示的学习,生成更具判别性的文本特征。最后,将视觉特征和文本特征输入到DINO的检测头中,进行目标检测。
关键创新:本文最重要的技术创新点在于DVC和VisGT两个模块。DVC模块通过动态构建词汇,使模型能够适应不同的目标类别组合,从而提升模型的泛化能力。VisGT模块通过利用视觉信息来指导文本提示的学习,从而更好地将视觉特征与语义信息对齐,提升模型的检测精度。与现有方法相比,LAE-DINO模型能够更好地利用遥感图像的特点,从而在开放词汇目标检测任务中取得更好的性能。
关键设计:DVC模块的关键设计在于如何动态构建词汇。本文采用了一种基于聚类的策略,将所有目标类别聚类成若干个簇,然后根据当前训练批次中的目标类别,选择相应的簇来构建词汇。VisGT模块的关键设计在于如何利用视觉信息来指导文本提示的学习。本文采用了一种基于注意力机制的方法,将视觉特征作为query,文本特征作为key和value,通过注意力机制来计算视觉特征和文本特征之间的相关性,从而生成更具判别性的文本特征。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LAE-1M数据集能够有效提升遥感图像开放词汇目标检测的性能。LAE-DINO模型在DIOR、DOTAv2.0和LAE-80C等基准测试中均取得了显著的性能提升,尤其是在LAE-80C上,相比于现有方法,性能提升幅度明显,验证了LAE-DINO模型的有效性。
🎯 应用场景
该研究成果可广泛应用于地球科学领域,例如环境监测(植被覆盖变化、水体污染检测)、自然灾害评估(地震、洪水灾害影响范围评估)、土地利用规划(城市扩张、耕地保护)等。通过自动检测遥感图像中的各类地物目标,可以为相关决策提供重要的数据支持,具有重要的实际应用价值和广阔的未来发展前景。
📄 摘要(原文)
Object detection, particularly open-vocabulary object detection, plays a crucial role in Earth sciences, such as environmental monitoring, natural disaster assessment, and land-use planning. However, existing open-vocabulary detectors, primarily trained on natural-world images, struggle to generalize to remote sensing images due to a significant data domain gap. Thus, this paper aims to advance the development of open-vocabulary object detection in remote sensing community. To achieve this, we first reformulate the task as Locate Anything on Earth (LAE) with the goal of detecting any novel concepts on Earth. We then developed the LAE-Label Engine which collects, auto-annotates, and unifies up to 10 remote sensing datasets creating the LAE-1M - the first large-scale remote sensing object detection dataset with broad category coverage. Using the LAE-1M, we further propose and train the novel LAE-DINO Model, the first open-vocabulary foundation object detector for the LAE task, featuring Dynamic Vocabulary Construction (DVC) and Visual-Guided Text Prompt Learning (VisGT) modules. DVC dynamically constructs vocabulary for each training batch, while VisGT maps visual features to semantic space, enhancing text features. We comprehensively conduct experiments on established remote sensing benchmark DIOR, DOTAv2.0, as well as our newly introduced 80-class LAE-80C benchmark. Results demonstrate the advantages of the LAE-1M dataset and the effectiveness of the LAE-DINO method.