GPT-4o as the Gold Standard: A Scalable and General Purpose Approach to Filter Language Model Pretraining Data

📄 arXiv: 2410.02755v3 📥 PDF

作者: Jifan Zhang, Ziyue Luo, Jia Liu, Ness Shroff, Robert Nowak

分类: cs.CL, cs.LG

发布日期: 2024-10-03 (更新: 2025-01-31)


💡 一句话要点

提出SIEVE:一种低成本、可扩展的语言模型预训练数据过滤方法,性能媲美GPT-4o。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言模型预训练 数据过滤 主动学习 GPT-4o 文本分类

📋 核心要点

  1. 高质量预训练数据是大型语言模型成功的关键,但现有网络规模数据过滤方法成本高昂或效果不佳。
  2. SIEVE通过集成GPT-4o和轻量级文本分类模型,并利用主动学习进行微调,实现了低成本高质量的数据过滤。
  3. 实验表明,SIEVE在多个过滤任务上与GPT-4o性能相当,且成本仅为其1%,并在DataComp-LM挑战中超越了现有方法。

📝 摘要(中文)

大型语言模型需要海量的高质量训练数据,但有效过滤网络规模的数据集仍然是一个重大挑战。本文证明了GPT-4o在识别高质量训练数据方面非常有效,但其高昂的成本使其在网络规模上不切实际。我们提出SIEVE,一种轻量级的替代方案,以低于1%的成本匹配GPT-4o的准确性。SIEVE可以执行多达500次过滤操作,其成本相当于一次GPT-4o过滤调用。SIEVE的关键是GPT-4o和轻量级文本分类模型的无缝集成,使用主动学习在后台通过少量调用GPT-4o来微调这些模型。一旦训练完成,它就能以极低的成本达到与GPT-4o相同的性能。通过不同的过滤提示,SIEVE可以有效地从网络规模的语料库中为通用或特定领域策划高质量的数据——鉴于目前高质量领域特定数据集的稀缺性,这是一种有价值的能力。使用自动和人工评估指标进行的大量实验表明,SIEVE和GPT-4o在五个高度特定的过滤提示上实现了相似的性能。此外,在对网络爬取数据集执行质量过滤时,我们证明SIEVE可以进一步改进DataComp-LM挑战中用于选择LLM预训练数据的最先进的质量过滤方法。

🔬 方法详解

问题定义:论文旨在解决大规模语言模型预训练数据过滤的问题。现有方法,如直接使用大型模型(如GPT-4o)进行过滤,虽然效果好,但成本过高,难以在网络规模的数据集上应用。其他轻量级方法,效果往往不如大型模型。因此,如何在保证过滤质量的同时,降低计算成本,是本研究要解决的核心问题。

核心思路:论文的核心思路是结合大型模型(GPT-4o)的强大能力和轻量级模型的效率。具体来说,利用GPT-4o作为“黄金标准”,对少量数据进行标注,然后使用这些标注数据训练轻量级文本分类模型。通过主动学习策略,不断选择不确定性高的样本,交给GPT-4o进行标注,并更新轻量级模型,从而在少量GPT-4o调用的前提下,使轻量级模型达到与GPT-4o相当的过滤性能。

技术框架:SIEVE的整体框架包含以下几个主要阶段:1) 初始标注:使用GPT-4o对少量数据进行初始标注,作为训练轻量级模型的种子数据。2) 模型训练:使用初始标注数据训练一个或多个轻量级文本分类模型。3) 主动学习循环:a) 使用轻量级模型对未标注数据进行预测;b) 选择不确定性最高的样本(例如,预测概率接近0.5的样本);c) 将这些样本交给GPT-4o进行标注;d) 使用新标注的数据更新轻量级模型。4) 数据过滤:使用训练好的轻量级模型对大规模数据集进行过滤,选择高质量的数据。

关键创新:SIEVE的关键创新在于将GPT-4o作为“黄金标准”与主动学习相结合,高效地训练轻量级文本分类模型。与直接使用GPT-4o进行过滤相比,SIEVE大大降低了计算成本。与传统的轻量级过滤方法相比,SIEVE通过GPT-4o的指导,显著提高了过滤质量。

关键设计:在主动学习循环中,选择不确定性最高的样本是关键。论文可能采用了多种不确定性度量方法,例如熵、置信度等。此外,轻量级模型的选择也很重要,需要根据具体的过滤任务选择合适的模型结构和参数。损失函数的设计也需要考虑,例如,可以使用交叉熵损失函数来训练文本分类模型。具体的参数设置和网络结构可能因实验而异,论文中应该有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SIEVE在五个高度特定的过滤提示上实现了与GPT-4o相似的性能,而成本仅为其1%。在DataComp-LM挑战中,SIEVE超越了现有的最先进的质量过滤方法,表明其在实际预训练数据选择中具有显著优势。这些结果验证了SIEVE的有效性和高效性。

🎯 应用场景

SIEVE可广泛应用于大规模语言模型预训练数据的清洗和筛选,尤其是在特定领域数据集稀缺的情况下,能够高效地从网络语料库中提取高质量的领域相关数据。这有助于提升特定领域语言模型的性能,并降低预训练成本。此外,该方法也可用于其他需要高质量数据过滤的场景,如信息检索、文本分类等。

📄 摘要(原文)

Large language models require vast amounts of high-quality training data, but effective filtering of web-scale datasets remains a significant challenge. This paper demonstrates that GPT-4o is remarkably effective at identifying high-quality training data, but its prohibitive cost makes it impractical at web-scale. We propose SIEVE, a lightweight alternative that matches GPT-4o accuracy at less than 1\% of the cost. SIEVE can perform up to 500 filtering operations for the cost of one GPT-4o filtering call. The key to SIEVE is a seamless integration of GPT-4o and lightweight text classification models, using active learning to fine-tune these models in the background with a small number of calls to GPT-4o. Once trained, it performs as well as GPT-4o at a tiny fraction of the cost. Through different filtering prompts, SIEVE can efficiently curate high quality data for general or specialized domains from web-scale corpora -- a valuable capability given the current scarcity of high-quality domain-specific datasets. Extensive experiments using automatic and human evaluation metrics show that SIEVE and GPT-4o achieve similar performance on five highly specific filtering prompts. In addition, when performing quality filtering on web crawl datasets, we demonstrate SIEVE can further improve over state-of-the-art quality filtering methods in the DataComp-LM challenge for selecting LLM pretraining data.