Harnessing Diversity for Important Data Selection in Pretraining Large Language Models
作者: Chi Zhang, Huaping Zhong, Kuan Zhang, Chengliang Chai, Rui Wang, Xinlin Zhuang, Tianyi Bai, Jiantao Qiu, Lei Cao, Ju Fan, Ye Yuan, Guoren Wang, Conghui He
分类: cs.AI
发布日期: 2024-09-25 (更新: 2024-10-05)
💡 一句话要点
提出Quad方法,通过数据影响力和多样性选择提升大语言模型预训练效果
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 预训练 数据选择 数据影响力 多样性 多臂老虎机 iHVP
📋 核心要点
- 现有数据选择方法计算所有数据的影响力耗时,且选择的数据缺乏多样性,限制了预训练模型的泛化能力。
- Quad方法通过数据影响力和多样性相结合的方式进行数据选择,利用改进的iHVP计算数据质量,并使用多臂老虎机平衡质量和多样性。
- Quad方法在预训练任务上取得了state-of-the-art的结果,验证了其在数据选择方面的有效性。
📝 摘要(中文)
鉴于大规模训练语料库中质量的差异,数据选择对于预训练大型语言模型至关重要。目前的研究主要集中在使用数据影响力来衡量数据实例的重要性,即高影响力得分表明将该实例纳入训练集可能提高模型性能,并选择得分最高的top-k个实例。然而,这种方法存在几个局限性:(1)计算所有可用数据的影响力非常耗时。(2)所选数据实例不够多样化,这可能会阻碍预训练模型有效泛化到各种下游任务的能力。本文介绍了一种数据选择方法 exttt{Quad},它通过使用数据影响力来考虑质量和多样性,从而实现最先进的预训练结果。特别地,注意到注意力层捕获了广泛的语义细节,我们已经调整了注意力层的加速$iHVP$计算方法,从而增强了我们评估数据影响力的能力,即其质量。对于多样性, exttt{Quad}将数据集聚类为每个集群内相似的数据实例和不同集群间不同的实例。对于每个集群,如果我们选择从中选择数据,我们将抽取一些样本来评估影响力,以防止处理所有实例。为了确定要选择哪些集群,我们利用经典的多臂老虎机方法,将每个集群视为一个臂。这种方法倾向于具有高影响力实例的集群(确保高质量)或选择频率较低的集群(确保多样性),从而很好地平衡了质量和多样性。
🔬 方法详解
问题定义:现有的大语言模型预训练数据选择方法,主要依赖于计算数据的影响力得分,并选择top-k个数据。这种方法的痛点在于计算所有数据的影响力得分非常耗时,并且选择的数据往往相似度很高,缺乏多样性,从而限制了预训练模型的泛化能力。
核心思路:Quad方法的核心思路是在数据选择过程中同时考虑数据质量和多样性。通过改进的iHVP算法加速影响力计算,评估数据质量。同时,将数据进行聚类,并使用多臂老虎机算法在不同簇之间进行选择,从而保证选择的数据具有较高的多样性。
技术框架:Quad方法的整体框架如下: 1. 数据聚类:将原始数据集聚类成多个簇,每个簇内的数据相似,簇间数据差异较大。 2. 影响力评估:对于每个簇,随机抽取部分样本,使用改进的iHVP算法计算其影响力得分。 3. 多臂老虎机选择:将每个簇视为一个臂,使用多臂老虎机算法选择要使用哪些簇的数据。多臂老虎机算法会倾向于选择影响力得分高的簇,以及选择次数较少的簇,从而平衡质量和多样性。 4. 数据选择:从选定的簇中,选择影响力得分最高的若干个数据样本。
关键创新:Quad方法的关键创新在于: 1. 同时考虑数据质量和多样性:这是与现有方法的最大区别,现有方法只关注数据质量,忽略了多样性。 2. 改进的iHVP算法:针对注意力层进行了优化,加速了影响力得分的计算。 3. 多臂老虎机选择:利用多臂老虎机算法平衡质量和多样性,避免了人工设定权重等繁琐操作。
关键设计: 1. 聚类算法:论文中使用的聚类算法未知,但选择合适的聚类算法对于保证簇内相似性和簇间差异性至关重要。 2. iHVP改进:针对Attention层,具体如何改进iHVP算法以加速计算,论文中未详细描述,需要进一步研究。 3. 多臂老虎机算法:具体使用的多臂老虎机算法类型未知,需要根据实际情况选择合适的算法,并调整探索率等参数。
🖼️ 关键图片
📊 实验亮点
论文提出的Quad方法在预训练任务上取得了state-of-the-art的结果,证明了其在数据选择方面的有效性。具体的性能数据和对比基线未知,但该方法在质量和多样性上的平衡,使其在泛化能力上优于现有方法。通过改进的iHVP算法,加速了影响力计算,降低了计算成本。
🎯 应用场景
该研究成果可应用于各种需要大规模预训练语言模型的场景,例如自然语言处理、机器翻译、文本生成等。通过更有效地选择预训练数据,可以降低预训练成本,提高模型性能,并提升模型在各种下游任务上的表现。未来,该方法可以进一步扩展到其他模态的数据选择中,例如图像、视频等。
📄 摘要(原文)
Data selection is of great significance in pre-training large language models, given the variation in quality within the large-scale available training corpora. To achieve this, researchers are currently investigating the use of data influence to measure the importance of data instances, $i.e.,$ a high influence score indicates that incorporating this instance to the training set is likely to enhance the model performance. Consequently, they select the top-$k$ instances with the highest scores. However, this approach has several limitations. (1) Computing the influence of all available data is time-consuming. (2) The selected data instances are not diverse enough, which may hinder the pre-trained model's ability to generalize effectively to various downstream tasks. In this paper, we introduce \texttt{Quad}, a data selection approach that considers both quality and diversity by using data influence to achieve state-of-the-art pre-training results. In particular, noting that attention layers capture extensive semantic details, we have adapted the accelerated $iHVP$ computation methods for attention layers, enhancing our ability to evaluate the influence of data, $i.e.,$ its quality. For the diversity, \texttt{Quad} clusters the dataset into similar data instances within each cluster and diverse instances across different clusters. For each cluster, if we opt to select data from it, we take some samples to evaluate the influence to prevent processing all instances. To determine which clusters to select, we utilize the classic Multi-Armed Bandit method, treating each cluster as an arm. This approach favors clusters with highly influential instances (ensuring high quality) or clusters that have been selected less frequently (ensuring diversity), thereby well balancing between quality and diversity.