SEED: Targeted Data Selection by Weighted Independent Set
作者: Yuan Zhang, Lifeng Guo, Junwen Pan, Chang Liu, Wenzhao Zheng, Kuan Cheng, Kurt Keutzer, Shanghang Zhang
分类: cs.LG
发布日期: 2026-05-15
备注: 20 pages
💡 一句话要点
SEED:通过加权独立集实现有针对性的数据选择,提升模型训练效率与性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 数据选择 加权独立集 节点值校准 局部尺度归一化 指令调优 视觉指令调优 语义分割 数据集构建
📋 核心要点
- 现有数据选择方法难以区分信息信号和梯度噪声,导致选择的子集质量不高。
- SEED通过加权独立集建模数据选择,并引入节点值校准和局部尺度归一化来提升选择质量和多样性。
- 实验表明,SEED在指令调优、视觉指令调优和语义分割等任务上显著优于现有方法。
📝 摘要(中文)
数据选择旨在从大规模训练语料库中识别出一个紧凑且信息丰富的子集,从而平衡样本质量和收集多样性。本文将此问题建模为相似性图上的加权独立集(WIS)问题,其中节点表示数据样本,权重表示影响,边连接语义冗余的样本对。这种建模方式自然产生高质量且多样化的子集。然而,实践中存在两个挑战:朴素的节点权重无法区分信息信号和梯度噪声,以及异构域分布下的边构建会产生结构不平衡的图,导致选择偏向稀疏区域。为了解决这些问题,我们从统一的图视角引入了两个原则性改进:(1)节点值校准,将影响估计限制在双边显著子空间,以将节点重要性建立在任务相关的信号上,而不是表面统计信息;(2)局部尺度归一化,使边缘阈值适应局部邻域密度,从而减轻跨域分布偏移引起的图不平衡。这些组件共同构成了一个鲁棒且可扩展的数据选择流程,称为SEED。我们进一步构建了 exttt{Honeybee-Remake-SEED-200K},这是一个由SEED整理的紧凑型多模态数据集。大量实验表明,在各种模型系列中,SEED在指令调优、视觉指令调优和语义分割方面始终优于最先进的方法。
🔬 方法详解
问题定义:论文旨在解决大规模数据集下,如何选择一个既具有代表性又多样化的子集用于模型训练的问题。现有方法通常难以区分数据中的噪声和有效信息,导致选择的子集质量不高,影响模型性能。此外,异构数据分布会导致构建的相似性图结构不平衡,使得数据选择偏向于某些特定区域。
核心思路:论文将数据选择问题建模为加权独立集(WIS)问题,其中节点代表数据样本,权重代表样本的重要性,边代表样本之间的相似性。通过求解WIS,可以找到一个节点集合,集合内的节点互不相邻(即不相似),且总权重最大。这样既保证了选择的样本具有多样性,又保证了样本的重要性。
技术框架:SEED数据选择流程主要包含以下几个步骤:1. 构建相似性图:基于数据样本的特征,计算样本之间的相似度,并构建相似性图。2. 节点值校准:通过双边显著子空间限制影响估计,从而更准确地评估节点的重要性。3. 局部尺度归一化:根据局部邻域密度调整边缘阈值,缓解图结构不平衡问题。4. 加权独立集求解:使用贪心算法或其他优化算法求解加权独立集,得到最终选择的数据子集。
关键创新:论文的关键创新在于提出了节点值校准和局部尺度归一化两种方法,用于解决传统数据选择方法中存在的两个问题:无法区分信息信号和梯度噪声,以及图结构不平衡。节点值校准通过关注任务相关的信号来提升节点重要性评估的准确性,局部尺度归一化则通过自适应调整边缘阈值来缓解图结构不平衡问题。
关键设计:节点值校准的关键在于确定双边显著子空间,这可以通过分析梯度信息来实现。局部尺度归一化的关键在于确定局部邻域密度,这可以通过计算节点的k近邻来实现。加权独立集的求解可以使用贪心算法,每次选择权重最大的节点,并移除其邻居节点,直到所有节点都被选择或移除。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SEED在指令调优、视觉指令调优和语义分割等任务上均取得了显著的性能提升。例如,在指令调优任务中,SEED在多个模型系列上都优于现有的数据选择方法。此外,SEED还被用于构建了一个紧凑型多模态数据集 exttt{Honeybee-Remake-SEED-200K},证明了其在实际应用中的价值。
🎯 应用场景
SEED数据选择方法可以广泛应用于各种机器学习任务中,尤其是在数据量庞大且标注成本高昂的场景下。例如,可以用于自动驾驶中的场景数据选择,医疗影像中的病例数据选择,以及自然语言处理中的文本数据选择。通过选择更具代表性和多样性的数据子集,可以显著降低模型训练成本,并提升模型性能。
📄 摘要(原文)
Data selection seeks to identify a compact yet informative subset from large-scale training corpora, balancing sample quality against collection diversity. We formulate this problem as a Weighted Independent Set (WIS) on a similarity graph, where nodes represent data samples weighted by influence, and edges connect semantically redundant pairs. This formulation naturally yields subsets that are simultaneously high-quality and diverse. However, two challenges arise in practice: naive node weights fail to distinguish informative signals from gradient noise, and edge construction under heterogeneous domain distributions produces structurally imbalanced graphs that bias selection toward sparse regions. To address these issues, we introduce two principled refinements from a unified graph perspective: (1) \textit{node value calibration} that restricts influence estimation to the bilateral salient subspace to ground node importance in task-relevant signals rather than surface-level statistics; (2) \textit{local scale normalization} that adapts edge thresholds to local neighborhood density, mitigating graph imbalance induced by cross-domain distribution shifts. Together, these components yield a robust and scalable data selection pipeline dubbed SEED. We further construct \texttt{Honeybee-Remake-SEED-200K}, a compact multimodal dataset curated by SEED. Extensive experiments show that SEED consistently outperforms state-of-the-art methods on instruction tuning, visual instruction tuning, and semantic segmentation across diverse model families.