SIMPLER: Efficient Foundation Model Adaptation via Similarity-Guided Layer Pruning for Earth Observation

作者: Víctor Barreiro, Johannes Jakubik, Francisco Argüello, Dora B. Heras

分类: cs.CV

发布日期: 2026-03-20

💡 一句话要点

SIMPLER：面向地球观测，通过相似性引导剪枝实现高效基础模型适配

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 地球观测 基础模型 模型剪枝 视觉Transformer 表示相似性

📋 核心要点

地球观测基础模型微调面临计算资源瓶颈，训练和部署都需要大量时间和内存。
SIMPLER通过分析层间表示相似性，在微调前剪枝冗余层，降低模型复杂度。
实验表明，SIMPLER能在保持性能的同时显著减少参数量，加速训练和推理过程。

📝 摘要（中文）

针对地球观测领域基础模型微调计算成本高昂的问题，论文提出SIMPLER，一种预微调架构选择方法，旨在通过在适配前确定有效的模型深度来降低推理和部署成本。SIMPLER利用预训练视觉Transformer中更深层表示的稳定性，在无标签任务数据上计算逐层表示相似度，并应用自动评分函数来选择冗余层，无需梯度、幅度启发式方法或超参数调整。在Prithvi-EO-2数据集上，SIMPLER在保留94%基线性能的同时，剪枝高达79%的参数，从而实现2.1倍的训练加速和2.6倍的推理加速。该方法推广到TerraMind（一种多模态地球观测基础模型）和ImageNet预训练的ViT-MAE，证明了其在任务、架构和光谱模态上的适用性。

🔬 方法详解

问题定义：地球观测领域的基础模型微调需要大量的计算资源，包括训练时间和内存。现有的参数高效微调方法虽然降低了训练成本，但推理复杂度并未降低。后验压缩方法仅在昂贵的完整微调后优化推理，无法从一开始就降低计算负担。因此，需要一种方法在微调之前就确定合适的模型大小，从而降低训练和推理成本。

核心思路：论文的核心思路是利用预训练视觉Transformer中更深层表示的稳定性。作者观察到，在Transformer的深层，不同层之间的特征表示具有较高的相似性，这意味着这些层可能存在冗余。通过识别并移除这些冗余层，可以在不显著降低模型性能的前提下，减少模型的参数量和计算复杂度。

技术框架：SIMPLER方法的整体框架包括以下几个步骤：1) 数据准备：准备少量无标签的任务相关数据。2) 特征提取：使用预训练的Transformer模型提取每一层的特征表示。3) 相似度计算：计算相邻层之间的特征表示相似度。论文使用余弦相似度作为相似度度量。4) 冗余层选择：基于相似度得分，使用自动评分函数选择冗余层进行剪枝。5) 模型微调：在剪枝后的模型上进行微调，以恢复性能。

关键创新：SIMPLER的关键创新在于提出了一种基于层间表示相似度的预微调剪枝方法。与传统的剪枝方法（如基于梯度或幅度的方法）相比，SIMPLER无需进行梯度计算或超参数调整，计算效率更高。此外，SIMPLER在微调之前进行剪枝，可以从一开始就降低训练和推理成本，而不仅仅是优化推理阶段。

关键设计：SIMPLER的关键设计包括：1) 相似度度量：使用余弦相似度来衡量层间特征表示的相似性。2) 自动评分函数：设计了一个自动评分函数，用于根据相似度得分选择冗余层。该函数考虑了相似度得分的阈值和剪枝比例等因素。3) 无监督剪枝：SIMPLER在无标签数据上进行剪枝，避免了对标签数据的依赖。

🖼️ 关键图片

📊 实验亮点

SIMPLER在Prithvi-EO-2数据集上取得了显著的成果，能够在保留94%基线性能的同时，剪枝高达79%的参数，从而实现2.1倍的训练加速和2.6倍的推理加速。此外，该方法还成功推广到TerraMind和ImageNet预训练的ViT-MAE，证明了其在不同任务、架构和光谱模态上的泛化能力。

🎯 应用场景

SIMPLER方法可广泛应用于地球观测领域，例如遥感图像分类、目标检测和场景分割等任务。通过降低模型大小和计算复杂度，SIMPLER可以使基础模型更容易部署到资源受限的设备上，例如无人机和卫星。此外，SIMPLER还可以加速模型开发和迭代过程，降低研究成本，促进地球观测技术的普及和应用。

📄 摘要（原文）

Fine-tuning foundation models for Earth Observation is computationally expensive, with high training time and memory demands for both training and deployment. Parameter-efficient methods reduce training cost but retain full inference complexity, while post-hoc compression optimizes inference only after costly full fine-tuning. We introduce SIMPLER, a pre-fine-tuning architecture selection method that reduces inference and deployment costs by identifying an effective model depth before adaptation. SIMPLER exploits stabilization of representations in deeper layers of pre-trained vision transformers: it computes layer-wise representation similarity on unlabeled task data and applies an automated scoring function to select redundant layers, with no gradients, magnitude heuristics, or hyperparameter tuning required. On Prithvi-EO-2, SIMPLER prunes up to 79% of parameters while retaining 94% of baseline performance, yielding a 2.1x training speedup and 2.6x inference speedup. The method generalizes to TerraMind (a multimodal EO foundation model) and ImageNet-pretrained ViT-MAE, demonstrating applicability across tasks, architectures, and spectral modalities. Code is available at https://gitlab.citius.gal/hpc4rs/simpler.

SIMPLER: Efficient Foundation Model Adaptation via Similarity-Guided Layer Pruning for Earth Observation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理