Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models

📄 arXiv: 2505.22232v2 📥 PDF

作者: Mehdi Ali, Manuel Brack, Max Lübbering, Elias Wendt, Abbas Goher Khan, Richard Rutmann, Alex Jude, Maurice Kraus, Alexander Arno Weber, David Kaczér, Florian Mai, Lucie Flek, Rafet Sifa, Nicolas Flores-Herr, Joachim Köhler, Patrick Schramowski, Michael Fromm, Kristian Kersting

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-05-28 (更新: 2025-05-31)

备注: Project page available at https://huggingface.co/spaces/Jackal-AI/JQL


💡 一句话要点

JQL:一种基于语言模型的多语言预训练数据高效过滤方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言学习 数据过滤 预训练模型 知识蒸馏 语言模型 文本质量评估

📋 核心要点

  1. 现有高质量多语言数据集依赖启发式过滤,跨语言迁移性和可扩展性受限。
  2. JQL将大型语言模型的标注能力提炼为轻量级标注器,提升过滤效率和质量。
  3. 实验表明,JQL在35种语言上优于现有方法,提升下游模型训练质量和数据保留率。

📝 摘要(中文)

高质量的多语言训练数据对于有效预训练大型语言模型(LLMs)至关重要。然而,合适的开源多语言数据集的可用性仍然有限。现有的最先进的数据集主要依赖于启发式过滤方法,限制了它们的跨语言迁移性和可扩展性。本文介绍了一种系统的方法JQL,它能够高效地大规模地管理多样化和高质量的多语言数据,同时显著降低计算需求。JQL将LLM的标注能力提炼成基于预训练多语言嵌入的轻量级标注器。这些模型表现出强大的多语言和跨语言性能,即使对于训练期间未见过的语言和脚本也是如此。在35种语言上进行的实证评估表明,所得到的标注流程明显优于当前的启发式过滤方法,如Fineweb2。JQL显著提高了下游模型训练质量并提高了数据保留率。我们的研究为多语言数据管理提供了实践见解和宝贵资源,提高了多语言数据集开发的标准。

🔬 方法详解

问题定义:论文旨在解决大规模多语言预训练数据集中,现有启发式过滤方法效率低、跨语言泛化能力差的问题。现有方法依赖人工规则或简单的统计指标,难以准确评估文本质量,导致数据集质量参差不齐,影响下游模型的性能。

核心思路:论文的核心思路是将大型语言模型(LLMs)的文本质量评估能力迁移到轻量级的模型上。通过蒸馏LLMs的知识,训练小型、高效的标注器,从而实现大规模、高质量的多语言数据过滤。这种方法旨在克服启发式方法的局限性,提高数据过滤的准确性和效率。

技术框架:JQL方法包含以下主要步骤:1) 使用大型语言模型对少量数据进行高质量标注,作为训练数据;2) 基于预训练的多语言嵌入(例如,mBERT, XLM-RoBERTa)构建轻量级标注器;3) 使用LLM标注的数据训练轻量级标注器;4) 使用训练好的标注器对大规模多语言数据进行过滤,保留高质量的文本。

关键创新:JQL的关键创新在于利用知识蒸馏的思想,将大型语言模型的文本质量评估能力迁移到轻量级模型上。与传统的启发式方法相比,JQL能够更准确地评估文本质量,并且具有更好的跨语言泛化能力。此外,JQL通过使用轻量级模型,显著降低了计算成本,使其能够应用于大规模数据集的过滤。

关键设计:论文的关键设计包括:1) 选择合适的预训练多语言嵌入作为轻量级标注器的基础;2) 设计合适的训练目标,例如,使用交叉熵损失函数训练标注器;3) 探索不同的模型结构,例如,使用简单的线性分类器或更复杂的神经网络;4) 针对不同的语言和领域,调整训练数据和模型参数,以获得最佳性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,JQL在35种语言上的表现显著优于现有的启发式过滤方法,如Fineweb2。JQL能够提高下游模型的训练质量,并显著提高数据保留率。具体而言,JQL在多个下游任务上取得了性能提升,证明了其有效性。

🎯 应用场景

JQL可广泛应用于多语言大型语言模型的预训练数据构建,提升模型性能。该方法能够有效过滤低质量数据,提高数据利用率,降低训练成本。此外,JQL还可用于构建高质量的多语言数据集,促进跨语言自然语言处理研究。

📄 摘要(原文)

High-quality multilingual training data is essential for effectively pretraining large language models (LLMs). Yet, the availability of suitable open-source multilingual datasets remains limited. Existing state-of-the-art datasets mostly rely on heuristic filtering methods, restricting both their cross-lingual transferability and scalability. Here, we introduce JQL, a systematic approach that efficiently curates diverse and high-quality multilingual data at scale while significantly reducing computational demands. JQL distills LLMs' annotation capabilities into lightweight annotators based on pretrained multilingual embeddings. These models exhibit robust multilingual and cross-lingual performance, even for languages and scripts unseen during training. Evaluated empirically across 35 languages, the resulting annotation pipeline substantially outperforms current heuristic filtering methods like Fineweb2. JQL notably enhances downstream model training quality and increases data retention rates. Our research provides practical insights and valuable resources for multilingual data curation, raising the standards of multilingual dataset development.