Aleph-Alpha-GermanWeb: Improving German-language LLM pre-training with model-based data curation and synthetic data generation

📄 arXiv: 2505.00022v2 📥 PDF

作者: Thomas F Burns, Letitia Parcalabescu, Stephan Wäldchen, Michael Barlow, Gregor Ziegltrum, Volker Stampa, Bastian Harren, Björn Deiseroth

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-04-24 (更新: 2025-05-23)

备注: 10 pages, 3 figures


💡 一句话要点

Aleph-Alpha-GermanWeb:通过模型驱动的数据筛选与合成数据生成,提升德语LLM预训练效果。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 德语LLM 预训练数据集 数据清洗 模型过滤 合成数据生成 数据质量 自然语言处理

📋 核心要点

  1. 大规模语言模型依赖于海量数据,但数据质量对性能和训练效率至关重要,现有方法在德语数据质量提升方面仍有不足。
  2. 论文提出一种结合启发式规则、模型过滤和合成数据生成的数据集构建流程,旨在提升德语LLM预训练的数据质量。
  3. 实验结果表明,使用Aleph-Alpha-GermanWeb预训练的模型在德语基准测试中显著优于使用FineWeb2的数据集,验证了该方法的有效性。

📝 摘要(中文)

本文提出了一种德语数据集的构建流程,该流程结合了启发式和基于模型的过滤技术以及合成数据生成。我们使用该流程创建了Aleph-Alpha-GermanWeb,这是一个大规模的德语预训练数据集,其数据来源包括:(1) Common Crawl网络数据,(2) FineWeb2,以及(3)基于真实网络数据条件生成的合成数据。我们通过预训练一个10亿参数的Llama风格模型和一个80亿参数的无分词器分层自回归Transformer (HAT)来评估我们的数据集。在包括MMMLU在内的德语基准测试中,Aleph-Alpha-GermanWeb相比单独使用FineWeb2表现出显著的性能提升。即使FineWeb2通过人工筛选的高质量数据源(如维基百科)进行增强,这种优势仍然存在于80亿参数规模的模型上。我们的研究结果支持了越来越多的证据,即基于模型的数据筛选和合成数据生成可以显著增强LLM的预训练数据集。

🔬 方法详解

问题定义:现有德语LLM的预训练数据集质量参差不齐,直接影响模型的性能和训练效率。现有方法难以有效区分和过滤低质量或有害数据,也缺乏有效利用合成数据提升模型性能的手段。因此,如何构建一个高质量的德语预训练数据集是本文要解决的核心问题。

核心思路:论文的核心思路是通过结合启发式规则、模型驱动的数据筛选和合成数据生成,构建一个高质量的德语预训练数据集。通过模型对数据进行质量评估和过滤,可以更有效地去除噪声和低质量数据。利用真实网络数据作为条件生成合成数据,可以扩充数据集并提升模型的泛化能力。

技术框架:该数据集构建流程主要包含以下几个阶段:1) 数据收集:从Common Crawl和FineWeb2等来源收集原始网络数据。2) 数据清洗:使用启发式规则(如文本长度、重复率等)进行初步清洗。3) 模型过滤:使用预训练语言模型对数据进行质量评估,并根据评估结果进行过滤。4) 合成数据生成:利用真实网络数据作为条件,生成新的合成数据。5) 数据集构建:将清洗和过滤后的真实数据与合成数据合并,构建最终的预训练数据集。

关键创新:该方法的关键创新在于结合了模型驱动的数据筛选和合成数据生成。传统的启发式规则可能无法有效识别所有低质量数据,而模型可以学习更复杂的模式并进行更准确的评估。合成数据生成可以有效扩充数据集,并提升模型的泛化能力。

关键设计:在模型过滤阶段,使用了预训练的德语语言模型对数据进行质量评估,并设置了合理的阈值来过滤低质量数据。在合成数据生成阶段,使用了真实网络数据作为条件,并采用了合适的生成模型来保证合成数据的质量和多样性。具体的参数设置和模型选择在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用Aleph-Alpha-GermanWeb预训练的10亿参数Llama风格模型和80亿参数HAT模型在德语基准测试(包括MMMLU)中,相比于使用FineWeb2预训练的模型,性能均有显著提升。即使FineWeb2通过人工筛选的高质量数据源(如维基百科)进行增强,Aleph-Alpha-GermanWeb仍然表现出优势。

🎯 应用场景

该研究成果可应用于提升德语自然语言处理模型的性能,例如机器翻译、文本生成、问答系统等。高质量的德语预训练数据集可以促进德语LLM的发展,并推动德语自然语言处理技术的进步。该方法也可以推广到其他语言的数据集构建中,具有广泛的应用前景。

📄 摘要(原文)

Scaling data quantity is essential for large language models (LLMs), yet recent findings show that data quality can significantly boost performance and training efficiency. We introduce a German-language dataset curation pipeline that combines heuristic and model-based filtering techniques with synthetic data generation. We use our pipeline to create Aleph-Alpha-GermanWeb, a large-scale German pre-training dataset which draws from: (1) Common Crawl web data, (2) FineWeb2, and (3) synthetically-generated data conditioned on actual, organic web data. We evaluate our dataset by pre-training both a 1B Llama-style model and an 8B tokenizer-free hierarchical autoregressive transformer (HAT). A comparison on German-language benchmarks, including MMMLU, shows significant performance gains of Aleph-Alpha-GermanWeb over FineWeb2 alone. This advantage holds at the 8B scale even when FineWeb2 is enriched by human-curated high-quality data sources such as Wikipedia. Our findings support the growing body of evidence that model-based data curation and synthetic data generation can significantly enhance LLM pre-training datasets.