MAPEX: Modality-Aware Pruning of Experts for Remote Sensing Foundation Models

📄 arXiv: 2507.07527v1 📥 PDF

作者: Joelle Hanna, Linus Scheibenreif, Damian Borth

分类: cs.CV

发布日期: 2025-07-10

🔗 代码/项目: GITHUB


💡 一句话要点

MAPEX:遥感基础模型中基于模态感知的专家剪枝方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 遥感 基础模型 多模态学习 专家模型 模型剪枝 模态感知 Token路由

📋 核心要点

  1. 遥感基础模型通常侧重于特定模态(如RGB),与实际应用需求存在模态不匹配,且模型体积大,微调困难。
  2. MAPEX提出一种基于混合模态专家的遥感基础模型,通过模态条件token路由机制激发模态特定专家。
  3. MAPEX采用模态感知剪枝技术,仅保留任务相关模态的专家,实现高效微调和部署,并在实验中表现出优越性能。

📝 摘要(中文)

遥感数据常用于洪水制图、野火检测或土地利用研究等任务。针对每个任务,科学家会仔细选择合适的模态或利用专用仪器的数据。最近关于遥感基础模型的工作主要集中于在大量遥感数据上预训练计算机视觉模型。这些大规模模型往往侧重于特定的模态,通常是可见光RGB或多光谱数据。对于许多重要的应用,这导致应用模态与预训练数据之间存在不匹配。此外,基础模型的大尺寸使得它们在每个任务的小数据集上进行微调的成本很高且困难。我们提出了MAPEX来解决这种不匹配问题,MAPEX是一个基于混合模态专家的遥感基础模型。MAPEX在多模态遥感数据上进行预训练,采用了一种新颖的模态条件token路由机制,该机制可以激发模态特定的专家。为了将模型应用于特定任务,我们提出了一种模态感知的剪枝技术,该技术仅保留专门用于任务模态的专家。这产生了高效的模态特定模型,同时简化了感兴趣模态的微调和部署。我们在不同的遥感数据集上对MAPEX进行了实验验证,并表明与完全监督训练和最先进的遥感基础模型相比,MAPEX具有强大的性能。

🔬 方法详解

问题定义:遥感领域中,预训练的视觉基础模型通常侧重于特定模态(如RGB),而实际应用往往需要多种模态的数据。这导致了预训练数据和下游任务之间的模态不匹配问题。此外,大型基础模型参数量巨大,在遥感领域通常较小的数据集上进行微调成本高昂,效果不佳。

核心思路:MAPEX的核心思路是构建一个混合模态专家的模型,每个专家负责处理特定的模态信息。通过模态条件token路由机制,模型可以根据输入数据的模态动态地选择合适的专家进行处理。在下游任务中,通过模态感知剪枝,只保留与任务相关模态的专家,从而减小模型体积,提高微调效率。

技术框架:MAPEX的整体框架包含以下几个主要模块:1) 多模态数据输入:模型接收来自不同遥感传感器的多模态数据。2) 模态条件Token路由:该模块根据输入数据的模态信息,将token路由到相应的专家。3) 混合模态专家:一组专家网络,每个专家负责处理特定的模态信息。4) 模态感知剪枝:根据下游任务的模态需求,对模型进行剪枝,只保留相关的专家。5) 微调:在剪枝后的模型上进行微调,以适应特定的下游任务。

关键创新:MAPEX的关键创新在于:1) 提出了模态条件token路由机制,使得模型能够根据输入数据的模态动态地选择合适的专家。2) 提出了模态感知剪枝技术,能够根据下游任务的模态需求,对模型进行剪枝,从而减小模型体积,提高微调效率。3) 构建了一个基于混合模态专家的遥感基础模型,能够有效地处理多模态遥感数据。

关键设计:模态条件token路由机制的具体实现未知,论文中可能使用了某种注意力机制或门控机制来实现token的路由。模态感知剪枝的具体策略未知,可能使用了某种重要性评估指标来确定哪些专家应该被保留。损失函数的设计也未知,可能使用了交叉熵损失或对比损失等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在多个遥感数据集上验证了MAPEX的有效性,实验结果表明,MAPEX在性能上优于完全监督训练的模型以及现有的遥感基础模型。具体的性能提升幅度未知,但摘要中强调了“strong performance”,表明提升较为显著。通过模态感知剪枝,模型体积显著减小,微调效率得到提高。

🎯 应用场景

MAPEX可应用于各种遥感任务,如洪水监测、森林火灾检测、土地利用分类等。通过针对特定任务的模态进行剪枝和微调,可以提高模型在这些任务上的性能和效率。该研究有助于推动遥感基础模型在实际应用中的部署,并为遥感数据的智能化分析提供更强大的工具。

📄 摘要(原文)

Remote sensing data is commonly used for tasks such as flood mapping, wildfire detection, or land-use studies. For each task, scientists carefully choose appropriate modalities or leverage data from purpose-built instruments. Recent work on remote sensing foundation models pre-trains computer vision models on large amounts of remote sensing data. These large-scale models tend to focus on specific modalities, often optical RGB or multispectral data. For many important applications, this introduces a mismatch between the application modalities and the pre-training data. Moreover, the large size of foundation models makes them expensive and difficult to fine-tune on typically small datasets for each task. We address this mismatch with MAPEX, a remote sensing foundation model based on mixture-of-modality experts. MAPEX is pre-trained on multi-modal remote sensing data with a novel modality-conditioned token routing mechanism that elicits modality-specific experts. To apply the model on a specific task, we propose a modality aware pruning technique, which only retains experts specialized for the task modalities. This yields efficient modality-specific models while simplifying fine-tuning and deployment for the modalities of interest. We experimentally validate MAPEX on diverse remote sensing datasets and show strong performance compared to fully supervised training and state-of-the-art remote sensing foundation models. Code is available at https://github.com/HSG-AIML/MAPEX.