Non-Uniform Class-Wise Coreset Selection for Vision Model Fine-tuning

作者: Hanyu Zhang, Zhen Xing, Ruian He, Wenxuan Yang, Chenxi Ma, Weimin Tan, Bo Yan

分类: cs.LG, cs.AI

发布日期: 2025-04-17 (更新: 2025-11-18)

备注: 13pages

💡 一句话要点

提出非均匀类感知 Coreset 选择方法 NUCS，用于高效微调视觉模型。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Coreset选择 模型微调 非均匀采样 类感知学习 视觉分类

📋 核心要点

现有 Coreset 选择方法忽略了不同类别间的难度差异，导致数据预算分配不合理，影响模型微调效果。
NUCS 框架通过整合类级别和样本级别的难度信息，实现非均匀的类间数据预算分配和类内样本选择。
实验结果表明，NUCS 在多个视觉分类任务上优于现有方法，提升了准确性和计算效率。

📝 摘要（中文）

Coreset 选择旨在识别数据集中小而信息量大的子集，从而提高模型训练效率并减少存储开销。最近，该技术被用于解决大型基础模型的微调挑战，为高效部署提供了直接途径。然而，现有方法大多与类别无关，忽略了类别间显著的难度差异，导致过度裁剪容易或困难类别的样本，造成数据预算分配不佳，最终降低 Coreset 性能。为解决此问题，我们提出了非均匀类感知 Coreset 选择（NUCS），一种整合类级别和样本级别难度的新框架。我们提出了一种稳健的全局类难度度量，量化为样本难度分数的 Winsorized 平均值。在该度量的指导下，我们的方法在类间执行具有理论基础的非均匀数据选择预算分配，同时在类内自适应地选择具有最佳难度范围的样本。在各种视觉分类任务上的大量实验表明，NUCS 在 10 个不同的数据集和预训练模型上始终优于最先进的方法，实现了卓越的准确性和计算效率，突出了非均匀类感知选择策略在推进大型基础模型高效微调方面的潜力。

🔬 方法详解

问题定义：论文旨在解决在微调大型视觉模型时，如何更有效地进行 Coreset 选择的问题。现有方法通常是类别无关的，即对所有类别采用统一的采样策略，忽略了不同类别之间固有的难度差异。这会导致对容易或困难的类别过度采样或欠采样，从而影响微调模型的性能。

核心思路：论文的核心思路是根据每个类别的难度，动态地分配 Coreset 选择的预算。对于难度较高的类别，分配更多的预算，以便选择更多具有代表性的样本；对于难度较低的类别，则分配较少的预算。同时，在每个类别内部，自适应地选择具有最佳难度范围的样本。

技术框架：NUCS 框架主要包含以下几个步骤：1) 计算每个样本的难度得分；2) 基于样本难度得分，计算每个类别的全局难度，采用 Winsorized 平均值以增强鲁棒性；3) 根据类别的难度，非均匀地分配 Coreset 选择的预算；4) 在每个类别内部，根据样本的难度得分，自适应地选择样本。

关键创新：NUCS 的关键创新在于提出了非均匀的类感知 Coreset 选择策略。与现有方法不同，NUCS 能够根据类别的难度动态地调整 Coreset 选择的预算，从而更有效地利用有限的计算资源。此外，使用 Winsorized 平均值计算类难度，提高了对异常值的鲁棒性。

关键设计：NUCS 使用 Winsorized 平均值来计算类难度，具体来说，首先计算每个样本的难度得分（例如，基于模型预测的置信度），然后对每个类别的样本难度得分进行排序，去除一定比例的最高和最低得分，最后计算剩余得分的平均值。这种方法可以有效地降低异常值的影响。在分配 Coreset 选择预算时，可以采用多种策略，例如，根据类难度的比例进行分配，或者采用更复杂的优化算法。

🖼️ 关键图片

📊 实验亮点

实验结果表明，NUCS 在 10 个不同的视觉分类数据集和预训练模型上，始终优于现有的 Coreset 选择方法。例如，在 ImageNet 数据集上，使用 ResNet-50 模型进行微调时，NUCS 能够以更小的 Coreset 尺寸达到与现有方法相当甚至更高的准确率。此外，NUCS 还显著降低了计算成本，提高了微调效率。

🎯 应用场景

该研究成果可广泛应用于计算机视觉领域，尤其是在资源受限的场景下，例如移动设备上的图像分类、目标检测等任务。通过使用 NUCS 方法选择 Coreset，可以显著减少模型微调所需的计算资源和存储空间，从而实现更高效的模型部署。此外，该方法还可以应用于其他机器学习任务，例如自然语言处理等。

📄 摘要（原文）

Coreset selection aims to identify a small yet highly informative subset of data, thereby enabling more efficient model training while reducing storage overhead. Recently, this capability has been leveraged to tackle the challenges of fine-tuning large foundation models, offering a direct pathway to their efficient and practical deployment. However, most existing methods are class-agnostic, causing them to overlook significant difficulty variations among classes. This leads them to disproportionately prune samples from either overly easy or hard classes, resulting in a suboptimal allocation of the data budget that ultimately degrades the final coreset performance. To address this limitation, we propose Non-Uniform Class-Wise Coreset Selection (NUCS), a novel framework that both integrates class-level and sample-level difficulty. We propose a robust metric for global class difficulty, quantified as the winsorized average of per-sample difficulty scores. Guided by this metric, our method performs a theoretically-grounded, non-uniform allocation of data selection budgets inter-class, while adaptively selecting samples intra-class with optimal difficulty ranges. Extensive experiments on a wide range of visual classification tasks demonstrate that NUCS consistently outperforms state-of-the-art methods across 10 diverse datasets and pre-trained models, achieving both superior accuracy and computational efficiency, highlighting the promise of non-uniform class-wise selection strategy for advancing the efficient fine-tuning of large foundation models.

Non-Uniform Class-Wise Coreset Selection for Vision Model Fine-tuning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理