FinerWeb-10BT: Refining Web Data with LLM-Based Line-Level Filtering

📄 arXiv: 2501.07314v1 📥 PDF

作者: Erik Henriksson, Otto Tarkka, Filip Ginter

分类: cs.CL

发布日期: 2025-01-13

备注: 11 pages, 4 figures, 4 tables. To be published in NoDaLiDa/Baltic-HLT 2025 proceedings


💡 一句话要点

提出基于LLM的行级过滤方法FinerWeb-10BT,提升LLM训练数据质量和效率

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数据质量 数据过滤 行级过滤 GPT-4o DeBERTa-v3 数据清洗 自然语言处理

📋 核心要点

  1. 传统启发式过滤方法在识别低质量文本方面存在不足,容易遗漏或错误删除有价值的内容,影响LLM训练效果。
  2. 利用GPT-4o mini对数据进行行级标注,训练DeBERTa-v3分类器,实现对大规模Web数据的行级质量过滤,提升数据质量。
  3. 实验表明,使用过滤后的数据训练的GPT-2模型在HellaSwag基准测试中表现更好,训练速度更快,数据利用率更高。

📝 摘要(中文)

本文提出了一种基于LLM的行级过滤方法,旨在提升大型语言模型(LLM)的训练数据质量。该方法利用GPT-4o mini对FineWeb数据集中的20,000篇文档进行行级标注,为低质量文本行创建描述性标签,并将这些标签归类为九个主要类别。然后,训练一个DeBERTa-v3分类器,将过滤扩展到FineWeb的10B token子集。通过在原始和过滤后的数据集上训练GPT-2模型进行测试,结果表明,在过滤后的数据上训练的模型在HellaSwag基准测试中实现了更高的准确率,并且更快地达到性能目标,即使使用的数据减少了高达25%。这表明基于LLM的行级过滤可以显著提高LLM的训练数据质量和训练效率。我们发布了质量标注数据集FinerWeb-10BT和代码库,以支持该领域的进一步研究。

🔬 方法详解

问题定义:论文旨在解决LLM训练数据质量不高的问题。现有的启发式过滤方法无法有效识别和去除Web数据中的低质量文本行,导致训练出的LLM性能受限。这些方法要么过于宽泛,保留了大量噪声数据,要么过于严格,错误地移除了有价值的信息。

核心思路:论文的核心思路是利用LLM的强大理解能力,对Web数据进行细粒度的行级质量评估和过滤。通过让LLM学习识别不同类型的低质量文本行,并训练分类器进行自动化过滤,从而提高训练数据的整体质量。这种方法能够更准确地识别和去除噪声,同时保留有用的信息。

技术框架:整体框架包含以下几个主要阶段:1) 使用GPT-4o mini对FineWeb数据集的抽样数据进行行级标注,标注每一行的质量,并给出描述性标签。2) 将这些标签归类为九个主要类别,形成一个质量标签体系。3) 使用标注好的数据训练一个DeBERTa-v3分类器,用于预测Web数据中每一行的质量标签。4) 将训练好的分类器应用于FineWeb的10B token子集,过滤掉低质量的文本行。5) 在原始数据集和过滤后的数据集上分别训练GPT-2模型,评估过滤效果。

关键创新:最重要的技术创新点在于使用LLM进行行级数据质量标注和过滤。与传统的启发式方法相比,LLM能够更准确地理解文本的语义和上下文,从而更有效地识别低质量文本。此外,行级过滤的粒度更细,能够更精确地去除噪声,同时保留有用的信息。

关键设计:关键设计包括:1) 使用GPT-4o mini进行数据标注,利用其强大的文本理解能力。2) 将标注标签归类为九个主要类别,简化分类任务。3) 使用DeBERTa-v3作为分类器,利用其在自然语言理解方面的优势。4) 通过在GPT-2模型上的实验,验证过滤效果,并与原始数据进行对比。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用FinerWeb-10BT过滤后的数据训练的GPT-2模型在HellaSwag基准测试中取得了更高的准确率,并且训练速度更快。具体来说,模型在更少的数据量(减少高达25%)下,能够更快地达到相同的性能水平。这证明了该方法的有效性,并突出了高质量数据对LLM训练的重要性。

🎯 应用场景

该研究成果可应用于各种需要高质量训练数据的自然语言处理任务,例如大型语言模型训练、文本摘要、机器翻译等。通过提高训练数据质量,可以提升模型的性能和泛化能力,降低训练成本,加速模型开发周期。该方法也为数据清洗和预处理提供了一种新的思路。

📄 摘要(原文)

Data quality is crucial for training Large Language Models (LLMs). Traditional heuristic filters often miss low-quality text or mistakenly remove valuable content. In this paper, we introduce an LLM-based line-level filtering method to enhance training data quality. We use GPT-4o mini to label a 20,000-document sample from FineWeb at the line level, allowing the model to create descriptive labels for low-quality lines. These labels are grouped into nine main categories, and we train a DeBERTa-v3 classifier to scale the filtering to a 10B-token subset of FineWeb. To test the impact of our filtering, we train GPT-2 models on both the original and the filtered datasets. The results show that models trained on the filtered data achieve higher accuracy on the HellaSwag benchmark and reach their performance targets faster, even with up to 25\% less data. This demonstrates that LLM-based line-level filtering can significantly improve data quality and training efficiency for LLMs. We release our quality-annotated dataset, FinerWeb-10BT, and the codebase to support further work in this area.