DGTRSD & DGTRS-CLIP: A Dual-Granularity Remote Sensing Image-Text Dataset and Vision Language Foundation Model for Alignment

📄 arXiv: 2503.19311v2 📥 PDF

作者: Weizhi Chen, Yupeng Deng, Jin Wei, Jingbo Chen, Jiansheng Chen, Yuman Feng, Zhihao Xi, Diyou Liu, Kai Li, Yu Meng

分类: cs.CV, cs.AI

发布日期: 2025-03-25 (更新: 2025-10-29)

🔗 代码/项目: GITHUB


💡 一句话要点

提出DGTRSD数据集与DGTRS-CLIP模型,用于遥感图像-文本双粒度对齐。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 遥感图像 视觉语言模型 CLIP 双粒度学习 跨模态检索

📋 核心要点

  1. 遥感领域基于CLIP的视觉语言模型依赖短文本标注,语义表达不完整,长文本信息丰富但模型难以有效处理。
  2. 提出DGTRS-CLIP,利用双粒度课程学习框架,结合短文本和长文本监督,实现遥感图像-文本的双粒度语义对齐。
  3. 实验表明,DGTRS-CLIP在零样本长/短文本跨模态检索、图像分类和语义定位等任务中均优于现有方法。

📝 摘要(中文)

本文提出了一种双粒度遥感图像-文本数据集DGTRSD,其中每张图像都配有短文本标题和长文本描述,为双粒度语义建模提供了坚实的基础。基于此,进一步提出了DGTRS-CLIP,一种双粒度课程学习框架,结合短文本和长文本监督来实现双粒度语义对齐。在四个典型的零样本任务(长文本跨模态检索、短文本跨模态检索、图像分类和语义定位)上的大量实验表明,DGTRS-CLIP在所有任务中始终优于现有方法。代码已开源。

🔬 方法详解

问题定义:现有遥感图像-文本模型主要依赖短文本标注,导致语义信息不完整。虽然长文本描述包含更丰富的信息,但现有模型由于文本编码能力的限制,难以有效处理长文本,并且缺乏同时包含短文本和长文本标注的遥感数据集。

核心思路:本文的核心思路是构建一个双粒度遥感图像-文本数据集DGTRSD,并在此基础上提出一个双粒度课程学习框架DGTRS-CLIP。通过结合短文本和长文本的监督信号,DGTRS-CLIP能够更好地学习遥感图像和文本之间的语义对齐关系。

技术框架:DGTRS-CLIP基于CLIP架构,主要包含图像编码器和文本编码器。其核心在于双粒度课程学习策略,首先利用短文本进行预训练,然后逐步引入长文本进行微调。这种课程学习策略能够帮助模型更好地适应长文本的复杂语义信息。

关键创新:DGTRS-CLIP的关键创新在于双粒度课程学习框架,它能够有效地结合短文本和长文本的监督信号,从而提升模型在遥感图像-文本对齐任务上的性能。此外,DGTRSD数据集的构建也为该领域的研究提供了新的资源。

关键设计:DGTRS-CLIP使用标准的CLIP损失函数进行训练,但针对长文本和短文本采用了不同的权重。在课程学习过程中,长文本的权重逐渐增加,以引导模型更好地学习长文本的语义信息。图像编码器和文本编码器可以采用不同的backbone,例如ResNet和Transformer。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DGTRS-CLIP在四个零样本任务上均取得了显著的性能提升。例如,在长文本跨模态检索任务中,DGTRS-CLIP的性能优于现有方法,表明其能够更好地理解长文本的语义信息。此外,在图像分类和语义定位任务中,DGTRS-CLIP也取得了具有竞争力的结果。

🎯 应用场景

该研究成果可应用于遥感图像检索、场景理解、目标定位等领域。例如,用户可以通过输入一段长文本描述来检索相关的遥感图像,或者利用模型进行遥感图像的自动标注。该研究有助于提升遥感数据的利用效率,为智慧城市、环境监测等应用提供技术支持。

📄 摘要(原文)

Vision Language Foundation Models based on CLIP architecture for remote sensing primarily rely on short text captions, which often result in incomplete semantic representations. Although longer captions convey richer information, existing models struggle to process them effectively because of limited text-encoding capacity, and there remains a shortage of resources that align remote sensing images with both short text and long text captions. To address this gap, we introduce DGTRSD, a dual-granularity remote sensing image-text dataset, where each image is paired with both a short text caption and a long text description, providing a solid foundation for dual-granularity semantic modeling. Based on this, we further propose DGTRS-CLIP, a dual-granularity curriculum learning framework that combines short text and long text supervision to achieve dual-granularity semantic alignment. Extensive experiments on four typical zero-shot tasks: long text cross-modal retrieval, short text cross-modal retrieval, image classification, and semantic localization demonstrate that DGTRS-CLIP consistently outperforms existing methods across all tasks. The code has been open-sourced and is available at https://github.com/MitsuiChen14/DGTRS.