SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing

📄 arXiv: 2507.13812v1 📥 PDF

作者: Yingying Zhang, Lixiang Ru, Kang Wu, Lei Yu, Lei Liang, Yansheng Li, Jingdong Chen

分类: cs.CV

发布日期: 2025-07-18

备注: Accepted by ICCV25


💡 一句话要点

SkySense V2:统一多模态遥感基础模型,提升参数效率与遥感数据适应性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态遥感 基础模型 Transformer 自监督学习 混合专家 遥感图像处理 统一骨干网络

📋 核心要点

  1. 现有遥感基础模型通常为每个模态训练独立骨干网络,导致参数冗余和效率低下,且缺乏对遥感数据特性的针对性优化。
  2. SkySense V2 提出统一的Transformer骨干网络,结合自适应patch合并模块和可学习模态提示token,提升模型对多模态遥感数据的理解能力。
  3. 实验结果表明,SkySense V2 在多个遥感任务上表现出强大的泛化能力,性能显著优于先前的 SkySense 模型。

📝 摘要(中文)

多模态遥感基础模型(MM-RSFM)在城市规划、环境监测和自然灾害管理等地球观测任务中取得了显著进展。然而,现有方法通常需要为每个数据模态训练单独的骨干网络,导致冗余和参数利用效率低下。此外,流行的预训练方法通常直接应用自然图像的自监督学习(SSL)技术,而没有充分考虑遥感(RS)图像的特性,例如单个RS图像中复杂的语义分布。本文提出了SkySense V2,一个统一的MM-RSFM,它采用单个Transformer骨干网络来处理多个模态。该骨干网络采用一种新颖的SSL策略进行预训练,该策略专门针对RS数据的独特特征。具体而言,SkySense V2 结合了创新的自适应patch合并模块和可学习的模态提示token,以解决与不同分辨率和跨模态有限的特征多样性相关的挑战。此外,我们还加入了混合专家(MoE)模块,以进一步提高基础模型的性能。通过对7个任务的16个数据集进行广泛评估,SkySense V2 展示了令人印象深刻的泛化能力,平均性能优于 SkySense 1.8 个百分点。

🔬 方法详解

问题定义:现有遥感基础模型通常为每个模态的数据(如光学图像、SAR图像、高程数据等)训练独立的骨干网络,这导致了大量的参数冗余,计算效率低下。此外,直接将自然图像上的自监督学习方法应用于遥感图像,忽略了遥感图像自身独特的语义分布和模态差异,限制了模型的性能。

核心思路:SkySense V2 的核心思路是构建一个统一的Transformer骨干网络,使其能够同时处理多种模态的遥感数据,从而避免参数冗余。同时,设计专门针对遥感数据特点的自监督学习策略,以及自适应的模态融合机制,以提升模型对遥感数据的理解能力。

技术框架:SkySense V2 的整体框架包含以下几个主要模块:1) 一个统一的Transformer骨干网络,用于提取多模态遥感数据的特征;2) 自适应patch合并模块,用于处理不同分辨率的遥感数据;3) 可学习的模态提示token,用于区分和融合不同模态的特征;4) 混合专家(MoE)模块,用于进一步提升模型的表达能力;5) 针对遥感数据设计的自监督学习预训练策略。

关键创新:SkySense V2 的关键创新在于:1) 提出了一个统一的Transformer骨干网络,能够高效地处理多模态遥感数据;2) 设计了自适应patch合并模块和可学习的模态提示token,能够有效地处理不同分辨率和模态差异的遥感数据;3) 采用了混合专家(MoE)模块,进一步提升了模型的表达能力。与现有方法相比,SkySense V2 更加高效、灵活,并且能够更好地适应遥感数据的特点。

关键设计:自适应patch合并模块根据输入数据的分辨率动态调整patch的大小,以保证特征提取的尺度一致性。可学习的模态提示token通过学习不同模态的特征表示,指导模型进行模态融合。混合专家(MoE)模块包含多个专家网络,每个专家网络负责处理特定类型的遥感数据,从而提升模型的泛化能力。损失函数包括自监督学习损失和下游任务的监督学习损失,共同优化模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SkySense V2 在 7 个遥感任务的 16 个数据集上进行了广泛的评估,结果表明,SkySense V2 的平均性能优于 SkySense 1.8 个百分点。这表明 SkySense V2 在多模态遥感数据处理方面具有显著的优势,并且具有很强的泛化能力。具体的性能提升幅度取决于具体的任务和数据集。

🎯 应用场景

SkySense V2 在城市规划、环境监测、自然灾害管理等领域具有广泛的应用前景。例如,可以利用 SkySense V2 对城市地区的遥感图像进行分析,提取建筑物、道路等信息,用于城市规划和管理。还可以利用 SkySense V2 对森林地区的遥感图像进行分析,监测森林覆盖率、生物多样性等指标,用于环境保护。此外,SkySense V2 还可以用于自然灾害的监测和评估,例如洪水、地震等。

📄 摘要(原文)

The multi-modal remote sensing foundation model (MM-RSFM) has significantly advanced various Earth observation tasks, such as urban planning, environmental monitoring, and natural disaster management. However, most existing approaches generally require the training of separate backbone networks for each data modality, leading to redundancy and inefficient parameter utilization. Moreover, prevalent pre-training methods typically apply self-supervised learning (SSL) techniques from natural images without adequately accommodating the characteristics of remote sensing (RS) images, such as the complicated semantic distribution within a single RS image. In this work, we present SkySense V2, a unified MM-RSFM that employs a single transformer backbone to handle multiple modalities. This backbone is pre-trained with a novel SSL strategy tailored to the distinct traits of RS data. In particular, SkySense V2 incorporates an innovative adaptive patch merging module and learnable modality prompt tokens to address challenges related to varying resolutions and limited feature diversity across modalities. In additional, we incorporate the mixture of experts (MoE) module to further enhance the performance of the foundation model. SkySense V2 demonstrates impressive generalization abilities through an extensive evaluation involving 16 datasets over 7 tasks, outperforming SkySense by an average of 1.8 points.