Aleph-Alpha-GermanWeb: Improving German-language LLM pre-training with model-based data curation and synthetic data generation

作者: Thomas F Burns, Letitia Parcalabescu, Stephan Wäldchen, Michael Barlow, Gregor Ziegltrum, Volker Stampa, Bastian Harren, Björn Deiseroth

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-04-24 (更新: 2025-05-23)

备注: 10 pages, 3 figures

💡 一句话要点

Aleph-Alpha-GermanWeb：通过模型驱动的数据筛选与合成数据生成，提升德语LLM预训练效果。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 德语LLM 预训练数据集 数据清洗 模型过滤 合成数据生成 数据质量 自然语言处理

📋 核心要点

大规模语言模型依赖于海量数据，但数据质量对性能和训练效率至关重要，现有方法在德语数据质量提升方面仍有不足。
论文提出一种结合启发式规则、模型过滤和合成数据生成的数据集构建流程，旨在提升德语LLM预训练的数据质量。
实验结果表明，使用Aleph-Alpha-GermanWeb预训练的模型在德语基准测试中显著优于使用FineWeb2的数据集，验证了该方法的有效性。

📝 摘要（中文）

本文提出了一种德语数据集的构建流程，该流程结合了启发式和基于模型的过滤技术以及合成数据生成。我们使用该流程创建了Aleph-Alpha-GermanWeb，这是一个大规模的德语预训练数据集，其数据来源包括：(1) Common Crawl网络数据，(2) FineWeb2，以及(3)基于真实网络数据条件生成的合成数据。我们通过预训练一个10亿参数的Llama风格模型和一个80亿参数的无分词器分层自回归Transformer (HAT)来评估我们的数据集。在包括MMMLU在内的德语基准测试中，Aleph-Alpha-GermanWeb相比单独使用FineWeb2表现出显著的性能提升。即使FineWeb2通过人工筛选的高质量数据源（如维基百科）进行增强，这种优势仍然存在于80亿参数规模的模型上。我们的研究结果支持了越来越多的证据，即基于模型的数据筛选和合成数据生成可以显著增强LLM的预训练数据集。

🔬 方法详解

问题定义：现有德语LLM的预训练数据集质量参差不齐，直接影响模型的性能和训练效率。现有方法难以有效区分和过滤低质量或有害数据，也缺乏有效利用合成数据提升模型性能的手段。因此，如何构建一个高质量的德语预训练数据集是本文要解决的核心问题。

核心思路：论文的核心思路是通过结合启发式规则、模型驱动的数据筛选和合成数据生成，构建一个高质量的德语预训练数据集。通过模型对数据进行质量评估和过滤，可以更有效地去除噪声和低质量数据。利用真实网络数据作为条件生成合成数据，可以扩充数据集并提升模型的泛化能力。

技术框架：该数据集构建流程主要包含以下几个阶段：1) 数据收集：从Common Crawl和FineWeb2等来源收集原始网络数据。2) 数据清洗：使用启发式规则（如文本长度、重复率等）进行初步清洗。3) 模型过滤：使用预训练语言模型对数据进行质量评估，并根据评估结果进行过滤。4) 合成数据生成：利用真实网络数据作为条件，生成新的合成数据。5) 数据集构建：将清洗和过滤后的真实数据与合成数据合并，构建最终的预训练数据集。

关键创新：该方法的关键创新在于结合了模型驱动的数据筛选和合成数据生成。传统的启发式规则可能无法有效识别所有低质量数据，而模型可以学习更复杂的模式并进行更准确的评估。合成数据生成可以有效扩充数据集，并提升模型的泛化能力。

关键设计：在模型过滤阶段，使用了预训练的德语语言模型对数据进行质量评估，并设置了合理的阈值来过滤低质量数据。在合成数据生成阶段，使用了真实网络数据作为条件，并采用了合适的生成模型来保证合成数据的质量和多样性。具体的参数设置和模型选择在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用Aleph-Alpha-GermanWeb预训练的10亿参数Llama风格模型和80亿参数HAT模型在德语基准测试（包括MMMLU）中，相比于使用FineWeb2预训练的模型，性能均有显著提升。即使FineWeb2通过人工筛选的高质量数据源（如维基百科）进行增强，Aleph-Alpha-GermanWeb仍然表现出优势。

🎯 应用场景

该研究成果可应用于提升德语自然语言处理模型的性能，例如机器翻译、文本生成、问答系统等。高质量的德语预训练数据集可以促进德语LLM的发展，并推动德语自然语言处理技术的进步。该方法也可以推广到其他语言的数据集构建中，具有广泛的应用前景。

📄 摘要（原文）

Scaling data quantity is essential for large language models (LLMs), yet recent findings show that data quality can significantly boost performance and training efficiency. We introduce a German-language dataset curation pipeline that combines heuristic and model-based filtering techniques with synthetic data generation. We use our pipeline to create Aleph-Alpha-GermanWeb, a large-scale German pre-training dataset which draws from: (1) Common Crawl web data, (2) FineWeb2, and (3) synthetically-generated data conditioned on actual, organic web data. We evaluate our dataset by pre-training both a 1B Llama-style model and an 8B tokenizer-free hierarchical autoregressive transformer (HAT). A comparison on German-language benchmarks, including MMMLU, shows significant performance gains of Aleph-Alpha-GermanWeb over FineWeb2 alone. This advantage holds at the 8B scale even when FineWeb2 is enriched by human-curated high-quality data sources such as Wikipedia. Our findings support the growing body of evidence that model-based data curation and synthetic data generation can significantly enhance LLM pre-training datasets.

Aleph-Alpha-GermanWeb: Improving German-language LLM pre-training with model-based data curation and synthetic data generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理