How Much of a Model Do We Need? Redundancy and Slimmability in Remote Sensing Foundation Models
作者: Leonard Hackel, Tom Burgert, Begüm Demir
分类: cs.CV
发布日期: 2026-01-30
💡 一句话要点
遥感基础模型冗余度分析与精简:揭示参数缩放的有效性边界
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 遥感图像 基础模型 模型精简 冗余度分析 可学习精简 下游任务 参数缩放
📋 核心要点
- 遥感领域直接沿用计算机视觉的参数缩放策略,但其有效性未经验证,可能导致模型过度参数化。
- 论文提出通过事后模型精简来评估遥感基础模型的冗余度,并探索可学习的精简训练方法。
- 实验表明,遥感模型比计算机视觉模型具有更高的冗余度,且精简训练能有效提升模型性能。
📝 摘要(中文)
本文研究了遥感领域大规模基础模型(FMs)中的冗余性和可精简性。作者假设,相比计算机视觉(CV)模型,遥感FMs在更小的规模上就进入了过参数化状态,增加参数主要导致冗余表示,而非新的抽象。为验证此假设,论文采用事后精简方法,均匀减少预训练编码器的宽度,以此衡量六个先进遥感FM在四个下游分类任务中的表示冗余。结果表明,与CV领域相比,遥感FM具有显著差异:在相同计算预算下,ImageNet上训练的掩码自编码器(MAE)事后精简后精度下降到10%以下,而遥感FM仍保持71%以上的相对精度。这种七倍的差异为假设提供了有力支持。论文进一步证明,可学习的精简训练可以改进基于动量对比(MoCo)和MAE的模型。此外,通过解释方差比和特征相关性分析,论文提供了机制解释,表明遥感FM以高冗余度分布任务相关信息。研究结果确立了事后精简作为资源受限环境下的实用部署策略,并挑战了遥感领域现行的缩放范式。
🔬 方法详解
问题定义:遥感领域的基础模型通常直接借鉴计算机视觉领域的模型缩放策略,即通过增加模型参数来提升性能。然而,这种策略是否适用于遥感数据尚不明确。现有的遥感模型可能存在过度参数化的问题,导致计算资源浪费和部署困难。因此,需要研究遥感基础模型的冗余度,并探索有效的模型精简方法。
核心思路:论文的核心思路是通过事后模型精简(post-hoc slimming)来评估遥感基础模型的冗余度。如果一个模型具有较高的冗余度,那么在不显著降低性能的情况下,可以通过减少模型参数来精简模型。此外,论文还探索了可学习的精简训练方法,以进一步提升模型性能。
技术框架:论文的技术框架主要包括以下几个步骤:1) 选择六个先进的遥感基础模型作为研究对象;2) 在四个下游分类任务上评估这些模型的性能;3) 采用事后精简方法,均匀减少预训练编码器的宽度;4) 评估精简后模型的性能,并与原始模型进行比较;5) 探索可学习的精简训练方法,并评估其性能;6) 通过解释方差比和特征相关性分析,提供机制解释。
关键创新:论文最重要的技术创新点在于揭示了遥感基础模型与计算机视觉模型在冗余度上的显著差异。实验结果表明,遥感模型比计算机视觉模型具有更高的冗余度,这意味着遥感模型在更小的规模上就可能达到饱和状态。此外,论文还提出了可学习的精简训练方法,可以有效提升遥感模型的性能。
关键设计:论文的关键设计包括:1) 采用事后精简方法,均匀减少预训练编码器的宽度,以评估模型的冗余度;2) 设计可学习的精简训练方法,通过引入额外的损失函数来鼓励模型学习更紧凑的表示;3) 使用解释方差比和特征相关性分析,来理解模型内部的表示方式。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在相同的计算预算下,ImageNet上训练的MAE事后精简后精度下降到10%以下,而遥感FM仍保持71%以上的相对精度,存在七倍的差异。通过可学习的精简训练,MoCo和MAE模型的性能均得到提升。这些结果表明,遥感基础模型具有较高的冗余度,可以通过模型精简来降低计算成本和存储需求。
🎯 应用场景
该研究成果可应用于资源受限的遥感应用场景,例如边缘计算设备上的遥感图像处理、低带宽环境下的遥感数据传输等。通过模型精简,可以降低计算成本和存储需求,提高遥感应用的效率和可扩展性。此外,该研究也为遥感基础模型的未来发展提供了新的思路,即在模型设计时应更加关注模型的冗余度,并探索更有效的模型精简方法。
📄 摘要(原文)
Large-scale foundation models (FMs) in remote sensing (RS) are developed based on the paradigms established in computer vision (CV) and have shown promise for various Earth observation applications. However, the direct transfer of scaling assumptions from CV to RS has not been adequately examined. We hypothesize that RS FMs enter an overparameterized regime at substantially smaller scales than their CV counterparts, where increasing parameter count primarily induces redundant representations rather than qualitatively new abstractions. To test this hypothesis, we use post-hoc slimming, where we uniformly reduce the width of pretrained encoder, as a tool to measure representational redundancy across six state-of-the-art RS FMs on four downstream classification tasks. Our findings reveal a significant contrast with those in the CV domain: while a post-hoc slimmed masked autoencoder (MAE) trained on ImageNet retains less than 10% accuracy at 1% FLOPs, RS FMs maintain over 71% relative accuracy at the same budget. This sevenfold difference provides strong empirical support for our hypothesis. We further demonstrate that learned slimmable training can improve both Momentum Contrast (MoCo)- and MAE- based models. In addition, through the explained variance ratio and the feature correlation analysis, we provide mechanistic explanations showing that RS FMs distribute task-relevant information with high redundancy. Our findings establish post-hoc slimmability as both a practical deployment strategy for resource-constrained environments and a diagnostic tool that challenges the prevailing scaling paradigm in RS. Upon acceptance, we will publish all code.