RS-Prune: Training-Free Data Pruning at High Ratios for Efficient Remote Sensing Diffusion Foundation Models

📄 arXiv: 2512.23239v2 📥 PDF

作者: Fan Wei, Runmin Dong, Yushan Lai, Yixiang Yang, Zhaoyang Luo, Jinxiao Zhang, Miao Yang, Shuai Yuan, Jiyao Zhao, Bin Luo, Haohuan Fu

分类: cs.CV

发布日期: 2025-12-29 (更新: 2026-01-05)


💡 一句话要点

RS-Prune:面向遥感扩散模型,实现高比例免训练数据剪枝

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 遥感图像 数据剪枝 扩散模型 生成模型 免训练 场景分类 分层抽样

📋 核心要点

  1. 遥感扩散模型训练依赖大量数据,但数据中存在冗余、噪声和类别不平衡问题,影响训练效率和模型收敛。
  2. 提出一种免训练的两阶段数据剪枝方法,通过熵移除低信息样本,并结合场景感知聚类和分层抽样选择高质量子集。
  3. 实验表明,即使剪枝85%的数据,该方法仍能显著提高模型收敛速度和生成质量,并在下游任务中取得SOTA性能。

📝 摘要(中文)

基于扩散的遥感(RS)生成式基础模型对于下游任务至关重要。然而,这些模型依赖于大量的全局代表性数据,这些数据通常包含冗余、噪声和类别不平衡,从而降低了训练效率并阻碍了收敛。现有的RS扩散基础模型通常聚合多个分类数据集或应用简单的去重,忽略了生成建模的分布需求和RS图像的异质性。为了解决这些限制,我们提出了一种免训练的两阶段数据剪枝方法,该方法能够在高剪枝率下快速选择高质量的子集,使初步的基础模型能够快速收敛,并作为生成、下游微调和其他应用的多功能骨干。我们的方法将局部信息内容与全局场景级多样性和代表性结合考虑。首先,基于熵的标准有效地移除低信息样本。接下来,利用RS场景分类数据集作为参考基准,我们执行场景感知聚类和分层抽样,以提高聚类效果,同时降低大规模未标记数据的计算成本。最后,通过平衡聚类级别的均匀性和样本代表性,该方法能够在高剪枝率下进行细粒度选择,同时保持整体多样性和代表性。实验表明,即使在剪枝85%的训练数据后,我们的方法也能显著提高收敛性和生成质量。此外,使用我们的方法训练的扩散基础模型在包括超分辨率和语义图像合成在内的下游任务中始终如一地实现了最先进的性能。这种数据剪枝范式为开发RS生成式基础模型提供了实践指导。

🔬 方法详解

问题定义:遥感扩散模型训练需要大量数据,但现有方法忽略了遥感数据的异质性和生成建模的分布需求,导致训练效率低下和模型收敛困难。现有方法如简单去重或直接聚合多个分类数据集,无法有效解决数据冗余、噪声和类别不平衡问题。

核心思路:提出一种免训练的数据剪枝方法,旨在从大规模遥感数据集中选择一个高质量的子集,以提高训练效率和模型性能。核心思想是结合局部信息内容和全局场景级多样性与代表性,在保证数据质量的同时,尽可能减少数据量。

技术框架:该方法包含两个主要阶段:1) 基于熵的低信息样本移除:利用熵值作为指标,快速过滤掉信息量较少的样本。2) 场景感知聚类和分层抽样:利用遥感场景分类数据集作为参考,对剩余数据进行场景感知聚类,并采用分层抽样方法,保证每个场景类别都有足够的代表性样本被保留。最后,在每个聚类中,平衡均匀性和代表性进行细粒度选择。

关键创新:该方法的主要创新在于其免训练特性和两阶段剪枝策略。免训练避免了额外的训练开销,使其能够快速应用于大规模数据集。两阶段剪枝策略结合了局部信息内容和全局场景级信息,能够更有效地选择高质量的子集。场景感知聚类和分层抽样保证了数据在不同场景类别上的代表性。

关键设计:熵的计算方式采用标准的信息熵公式。场景感知聚类使用预训练的遥感场景分类模型提取特征,然后进行聚类。分层抽样保证每个聚类中至少保留一定比例的样本。在每个聚类中,根据样本的代表性得分进行排序,选择代表性最高的样本。具体比例和阈值根据数据集和实验结果进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使剪枝85%的训练数据,该方法训练的扩散模型在收敛速度和生成质量上均有显著提升。在下游任务中,如超分辨率和语义图像合成,该方法训练的模型始终优于其他基线方法,取得了state-of-the-art的性能。这验证了该数据剪枝方法在遥感领域扩散模型训练中的有效性。

🎯 应用场景

该研究成果可广泛应用于遥感图像处理领域,例如遥感图像生成、超分辨率重建、语义图像合成等。通过减少训练数据量,可以降低训练成本,加速模型开发周期,并提升模型在下游任务中的性能。该方法为遥感生成式基础模型的开发提供了一种有效的解决方案,具有重要的实际应用价值。

📄 摘要(原文)

Diffusion-based remote sensing (RS) generative foundation models are cruial for downstream tasks. However, these models rely on large amounts of globally representative data, which often contain redundancy, noise, and class imbalance, reducing training efficiency and preventing convergence. Existing RS diffusion foundation models typically aggregate multiple classification datasets or apply simplistic deduplication, overlooking the distributional requirements of generation modeling and the heterogeneity of RS imagery. To address these limitations, we propose a training-free, two-stage data pruning approach that quickly select a high-quality subset under high pruning ratios, enabling a preliminary foundation model to converge rapidly and serve as a versatile backbone for generation, downstream fine-tuning, and other applications. Our method jointly considers local information content with global scene-level diversity and representativeness. First, an entropy-based criterion efficiently removes low-information samples. Next, leveraging RS scene classification datasets as reference benchmarks, we perform scene-aware clustering with stratified sampling to improve clustering effectiveness while reducing computational costs on large-scale unlabeled data. Finally, by balancing cluster-level uniformity and sample representativeness, the method enables fine-grained selection under high pruning ratios while preserving overall diversity and representativeness. Experiments show that, even after pruning 85\% of the training data, our method significantly improves convergence and generation quality. Furthermore, diffusion foundation models trained with our method consistently achieve state-of-the-art performance across downstream tasks, including super-resolution and semantic image synthesis. This data pruning paradigm offers practical guidance for developing RS generative foundation models.