SIMPLER: Efficient Foundation Model Adaptation via Similarity-Guided Layer Pruning for Earth Observation

📄 arXiv: 2603.19873v1 📥 PDF

作者: Víctor Barreiro, Johannes Jakubik, Francisco Argüello, Dora B. Heras

分类: cs.CV

发布日期: 2026-03-20


💡 一句话要点

SIMPLER:面向地球观测,通过相似性引导剪枝实现高效基础模型适配

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 地球观测 基础模型 模型剪枝 视觉Transformer 表示相似性

📋 核心要点

  1. 地球观测基础模型微调面临计算资源瓶颈,训练和部署都需要大量时间和内存。
  2. SIMPLER通过分析层间表示相似性,在微调前剪枝冗余层,降低模型复杂度。
  3. 实验表明,SIMPLER能在保持性能的同时显著减少参数量,加速训练和推理过程。

📝 摘要(中文)

针对地球观测领域基础模型微调计算成本高昂的问题,论文提出SIMPLER,一种预微调架构选择方法,旨在通过在适配前确定有效的模型深度来降低推理和部署成本。SIMPLER利用预训练视觉Transformer中更深层表示的稳定性,在无标签任务数据上计算逐层表示相似度,并应用自动评分函数来选择冗余层,无需梯度、幅度启发式方法或超参数调整。在Prithvi-EO-2数据集上,SIMPLER在保留94%基线性能的同时,剪枝高达79%的参数,从而实现2.1倍的训练加速和2.6倍的推理加速。该方法推广到TerraMind(一种多模态地球观测基础模型)和ImageNet预训练的ViT-MAE,证明了其在任务、架构和光谱模态上的适用性。

🔬 方法详解

问题定义:地球观测领域的基础模型微调需要大量的计算资源,包括训练时间和内存。现有的参数高效微调方法虽然降低了训练成本,但推理复杂度并未降低。后验压缩方法仅在昂贵的完整微调后优化推理,无法从一开始就降低计算负担。因此,需要一种方法在微调之前就确定合适的模型大小,从而降低训练和推理成本。

核心思路:论文的核心思路是利用预训练视觉Transformer中更深层表示的稳定性。作者观察到,在Transformer的深层,不同层之间的特征表示具有较高的相似性,这意味着这些层可能存在冗余。通过识别并移除这些冗余层,可以在不显著降低模型性能的前提下,减少模型的参数量和计算复杂度。

技术框架:SIMPLER方法的整体框架包括以下几个步骤:1) 数据准备:准备少量无标签的任务相关数据。2) 特征提取:使用预训练的Transformer模型提取每一层的特征表示。3) 相似度计算:计算相邻层之间的特征表示相似度。论文使用余弦相似度作为相似度度量。4) 冗余层选择:基于相似度得分,使用自动评分函数选择冗余层进行剪枝。5) 模型微调:在剪枝后的模型上进行微调,以恢复性能。

关键创新:SIMPLER的关键创新在于提出了一种基于层间表示相似度的预微调剪枝方法。与传统的剪枝方法(如基于梯度或幅度的方法)相比,SIMPLER无需进行梯度计算或超参数调整,计算效率更高。此外,SIMPLER在微调之前进行剪枝,可以从一开始就降低训练和推理成本,而不仅仅是优化推理阶段。

关键设计:SIMPLER的关键设计包括:1) 相似度度量:使用余弦相似度来衡量层间特征表示的相似性。2) 自动评分函数:设计了一个自动评分函数,用于根据相似度得分选择冗余层。该函数考虑了相似度得分的阈值和剪枝比例等因素。3) 无监督剪枝:SIMPLER在无标签数据上进行剪枝,避免了对标签数据的依赖。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SIMPLER在Prithvi-EO-2数据集上取得了显著的成果,能够在保留94%基线性能的同时,剪枝高达79%的参数,从而实现2.1倍的训练加速和2.6倍的推理加速。此外,该方法还成功推广到TerraMind和ImageNet预训练的ViT-MAE,证明了其在不同任务、架构和光谱模态上的泛化能力。

🎯 应用场景

SIMPLER方法可广泛应用于地球观测领域,例如遥感图像分类、目标检测和场景分割等任务。通过降低模型大小和计算复杂度,SIMPLER可以使基础模型更容易部署到资源受限的设备上,例如无人机和卫星。此外,SIMPLER还可以加速模型开发和迭代过程,降低研究成本,促进地球观测技术的普及和应用。

📄 摘要(原文)

Fine-tuning foundation models for Earth Observation is computationally expensive, with high training time and memory demands for both training and deployment. Parameter-efficient methods reduce training cost but retain full inference complexity, while post-hoc compression optimizes inference only after costly full fine-tuning. We introduce SIMPLER, a pre-fine-tuning architecture selection method that reduces inference and deployment costs by identifying an effective model depth before adaptation. SIMPLER exploits stabilization of representations in deeper layers of pre-trained vision transformers: it computes layer-wise representation similarity on unlabeled task data and applies an automated scoring function to select redundant layers, with no gradients, magnitude heuristics, or hyperparameter tuning required. On Prithvi-EO-2, SIMPLER prunes up to 79% of parameters while retaining 94% of baseline performance, yielding a 2.1x training speedup and 2.6x inference speedup. The method generalizes to TerraMind (a multimodal EO foundation model) and ImageNet-pretrained ViT-MAE, demonstrating applicability across tasks, architectures, and spectral modalities. Code is available at https://gitlab.citius.gal/hpc4rs/simpler.