Evaluating Sample Utility for Efficient Data Selection by Mimicking Model Weights
作者: Tzu-Heng Huang, Manjot Bilkhu, John Cooper, Frederic Sala, Javier Movellan
分类: cs.LG, cs.AI
发布日期: 2025-01-12 (更新: 2025-06-12)
备注: ICML DataWorld Workshop 2025 Oral Paper
💡 一句话要点
提出Grad-Mimic框架,通过模仿模型权重高效评估样本效用,实现数据选择。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 数据选择 样本效用 模型权重 梯度对齐 多模态学习
📋 核心要点
- 大规模多模态数据集存在噪声和偏差,传统数据选择方法要么依赖启发式规则,要么计算成本过高。
- 论文提出Mimic Score,通过参考模型权重评估样本对新模型训练的效用,并构建Grad-Mimic框架。
- 实验表明,Grad-Mimic能提升数据效率,加速收敛,并在多个图像数据集和CLIP模型上取得性能提升。
📝 摘要(中文)
多模态模型通常在大型网络爬取数据集上训练,这些数据集往往包含噪声、偏差和不相关信息。这促使人们使用数据选择技术,这些技术可以分为依赖于启发式规则和下游数据集的无模型变体,以及使用影响函数等基于模型的方法。前者设计成本高昂,并且有引入不必要的数据集依赖性的风险,而后者通常在计算上是难以承受的。在这项工作中,我们提出了一种高效的、基于模型的方法,使用Mimic Score,这是一种新的数据质量指标,它利用参考模型的权重来评估单个样本对于训练新模型的有用性。我们的方法依赖于测量训练梯度与该参考模型引起的target direction之间的对齐。在导出的mimic score的基础上,我们开发了Grad-Mimic:一个优先考虑样本进行学习、估计整体样本效用并创建有效过滤器的框架。经验表明,使用mimic score来指导训练可以提高数据效率,加速收敛,在六个图像数据集上产生一致的性能提升,并以减少20.7%的训练步骤来增强CLIP模型。此外,基于mimic score的过滤器补充了现有的过滤方法,例如,训练改进的CLIP模型减少了470万个样本,同时提供了对数据集质量的准确估计。
🔬 方法详解
问题定义:论文旨在解决大规模多模态数据集训练中,数据质量参差不齐导致训练效率低下和模型性能受限的问题。现有数据选择方法,如基于启发式规则的方法,需要人工设计,泛化性差,且容易引入数据集依赖;基于模型的方法,如影响函数,计算复杂度高,难以应用于大规模数据集。
核心思路:论文的核心思路是利用一个预训练的参考模型,通过分析训练样本的梯度方向与参考模型权重所指示的目标方向的对齐程度,来评估样本的效用。这种方法假设,高质量的样本应该能够使新模型的训练梯度与参考模型的权重方向更加一致,从而加速新模型的学习。
技术框架:Grad-Mimic框架主要包含以下几个阶段:1) Mimic Score计算:对于每个训练样本,计算其梯度与参考模型权重所定义的目标方向之间的余弦相似度,作为Mimic Score。2) 样本优先级排序:根据Mimic Score对训练样本进行排序,优先选择高分样本进行训练。3) 样本效用估计:利用Mimic Score估计整体数据集的质量和每个样本的效用。4) 数据过滤:基于Mimic Score设定阈值,过滤掉低质量的样本。
关键创新:论文的关键创新在于提出了Mimic Score这一新的数据质量评估指标,它能够高效地利用参考模型的知识来指导数据选择,避免了传统方法的高计算复杂度和人工设计依赖。与现有方法相比,Mimic Score能够更准确地评估样本的真实效用,从而提高数据选择的效率和模型性能。
关键设计:Mimic Score的计算公式为:Mimic Score = cos(gradient, target_direction),其中gradient是训练样本的梯度,target_direction是由参考模型的权重决定的目标方向。论文中使用了余弦相似度来衡量梯度和目标方向之间的对齐程度。此外,论文还设计了一种基于Mimic Score的自适应阈值选择方法,用于数据过滤,以平衡数据量和数据质量。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Grad-Mimic框架在六个图像数据集上均取得了性能提升,并且能够以减少20.7%的训练步骤来增强CLIP模型。此外,基于Mimic Score的过滤器能够减少470万个训练样本,同时保持或提升模型性能,并能准确估计数据集质量。这些结果验证了Grad-Mimic框架的有效性和高效性。
🎯 应用场景
Grad-Mimic框架可广泛应用于多模态模型的训练,尤其是在数据质量难以保证的大规模数据集上。该方法能够有效提升数据利用率,加速模型训练,并提高模型性能。例如,在图像分类、目标检测、自然语言处理等领域,可以利用Grad-Mimic筛选高质量数据,降低训练成本,提升模型泛化能力。此外,该方法还可用于数据集质量评估和数据清洗,为数据治理提供有效工具。
📄 摘要(原文)
Multimodal models are trained on large-scale web-crawled datasets, which often contain noise, bias, and irrelevant information. This motivates the use of data selection techniques, which can be divided into model-free variants, relying on heuristic rules and downstream datasets, and model-based approaches, such as those using influence functions. The former can be expensive to design and risks introducing unwanted dataset dependencies, while the latter are often computationally prohibitive. In this work, we propose an efficient, model-based approach using the Mimic Score, a new data-quality metric that leverages the weights of a reference model to assess the usefulness of individual samples for training a new model. Our method relies on measuring alignments between training gradients and a target direction induced by this reference model. Building on the derived mimic scores, we develop Grad-Mimic: a framework that prioritizes samples to learn, estimates overall sample utility, and creates effective filters. Empirically, using mimic scores to guide training improves data efficiency, accelerates convergence, yields consistent performance gains across six image datasets, and enhances CLIP models with 20.7% fewer training steps. Moreover, mimic score-based filters complement existing filtering methods, e.g., training improved CLIP models with 4.7 million fewer samples while offering accurate estimation of dataset quality.