Balanced Hierarchical Contrastive Learning with Decoupled Queries for Fine-grained Object Detection in Remote Sensing Images
作者: Jingzhou Chen, Dexin Chen, Fengchao Xiong, Yuntao Qian, Liang Xiao
分类: cs.CV
发布日期: 2025-12-30
💡 一句话要点
提出平衡分层对比学习与解耦查询,提升遥感图像细粒度目标检测性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 遥感图像 细粒度目标检测 分层对比学习 DETR 数据不平衡 解耦学习 目标检测
📋 核心要点
- 遥感图像细粒度目标检测面临层级标签数据不平衡和语义关系干扰定位的挑战。
- 提出平衡分层对比损失和解耦学习策略,平衡梯度贡献并分离分类与定位任务。
- 实验表明,该方法在三个细粒度数据集上超越了现有最优方法,提升了检测性能。
📝 摘要(中文)
针对遥感图像细粒度目标检测中存在的层级标签结构问题,该文提出了一种平衡分层对比损失,并结合解耦学习策略,应用于检测Transformer (DETR) 框架。该方法旨在解决层级标签数据不平衡以及语义关系学习干扰定位的问题。提出的损失函数引入可学习的类原型,平衡了每个层级类别贡献的梯度,确保每个层级类别在每个mini-batch中对损失计算的贡献相等。解耦策略将DETR的目标查询分为分类和定位集合,从而实现特定任务的特征提取和优化。在三个具有层级标注的细粒度数据集上的实验表明,该方法优于现有技术。
🔬 方法详解
问题定义:遥感图像细粒度目标检测任务中,数据集通常采用层级标签结构,但现有方法忽略了两个关键问题:一是层级标签数据分布不平衡,导致高频类别主导学习过程;二是学习类别间的语义关系会干扰与类别无关的定位任务。这些问题限制了细粒度检测性能的提升。
核心思路:论文的核心思路是平衡不同层级类别对损失函数的贡献,并解耦分类和定位任务。通过平衡梯度贡献,避免高频类别主导学习,确保每个层级类别都能充分学习。通过解耦查询,使分类和定位任务能够独立地提取和优化特征,从而提高检测精度。
技术框架:该方法基于DETR框架,主要包括以下模块:图像特征提取模块(通常是卷积神经网络),Transformer编码器-解码器结构,以及提出的平衡分层对比损失和解耦查询模块。首先,图像经过特征提取模块得到特征图,然后输入到Transformer编码器-解码器中进行特征交互和预测。在解码器中,目标查询被分为分类查询和定位查询,分别用于预测类别和位置。最后,使用平衡分层对比损失优化模型。
关键创新:该论文的关键创新在于提出了平衡分层对比损失和解耦查询策略。平衡分层对比损失通过引入可学习的类原型,并对每个层级类别的梯度进行平衡,解决了数据不平衡问题。解耦查询策略将DETR的目标查询分为分类和定位集合,实现了任务特定的特征提取和优化,避免了语义关系学习对定位的干扰。
关键设计:平衡分层对比损失的关键设计包括:1) 可学习的类原型,用于表示每个类别的特征中心;2) 梯度平衡机制,确保每个层级类别对损失函数的贡献相等。解耦查询策略的关键设计在于将DETR的目标查询分为两个独立的集合,分别用于分类和定位。损失函数方面,除了平衡分层对比损失外,还使用了标准的DETR损失函数,包括匈牙利匹配损失和边界框回归损失。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在三个细粒度遥感数据集上均取得了显著的性能提升,超越了现有最优方法。例如,在某数据集上,该方法的平均精度均值(mAP)提升了X个百分点(具体数值需参考论文原文),证明了平衡分层对比学习和解耦查询策略的有效性。
🎯 应用场景
该研究成果可应用于遥感图像分析、智慧城市建设、环境监测、灾害预警等领域。通过提升遥感图像中细粒度目标的检测精度,可以更准确地识别地物类型、监测环境变化、评估灾害损失,为相关决策提供更可靠的依据,具有重要的实际应用价值和广阔的应用前景。
📄 摘要(原文)
Fine-grained remote sensing datasets often use hierarchical label structures to differentiate objects in a coarse-to-fine manner, with each object annotated across multiple levels. However, embedding this semantic hierarchy into the representation learning space to improve fine-grained detection performance remains challenging. Previous studies have applied supervised contrastive learning at different hierarchical levels to group objects under the same parent class while distinguishing sibling subcategories. Nevertheless, they overlook two critical issues: (1) imbalanced data distribution across the label hierarchy causes high-frequency classes to dominate the learning process, and (2) learning semantic relationships among categories interferes with class-agnostic localization. To address these issues, we propose a balanced hierarchical contrastive loss combined with a decoupled learning strategy within the detection transformer (DETR) framework. The proposed loss introduces learnable class prototypes and equilibrates gradients contributed by different classes at each hierarchical level, ensuring that each hierarchical class contributes equally to the loss computation in every mini-batch. The decoupled strategy separates DETR's object queries into classification and localization sets, enabling task-specific feature extraction and optimization. Experiments on three fine-grained datasets with hierarchical annotations demonstrate that our method outperforms state-of-the-art approaches.