Enhancing Multilingual LLM Pretraining with Model-Based Data Selection

📄 arXiv: 2502.10361v1 📥 PDF

作者: Bettina Messmer, Vinko Sabolčec, Martin Jaggi

分类: cs.CL, cs.LG

发布日期: 2025-02-14


💡 一句话要点

提出基于模型的跨语言LLM预训练数据选择方法,提升模型性能和效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言LLM 预训练数据选择 模型驱动过滤 Transformer FastText

📋 核心要点

  1. 现有LLM预训练的数据过滤方法主要集中在英语上,缺乏对非英语语言的有效支持。
  2. 论文提出一种基于模型的跨语言数据选择框架,旨在挑选多样化、结构化和知识丰富的样本。
  3. 实验表明,该方法能显著提升多语言LLM的训练效率,并提高在多种基准测试上的性能。

📝 摘要(中文)

数据集的精心选择已成为大型语言模型(LLM)取得卓越性能的基础。虽然针对英语和多语言数据集存在各种基于规则的过滤启发式方法,但基于模型的过滤技术主要集中在英语上。为了解决非英语语言研究有限所带来的差距,我们提出了一种针对多语言数据集的基于模型的过滤框架,旨在识别多样化的、结构化的和知识丰富的样本。我们的方法强调透明性、简单性和效率,利用基于Transformer和FastText的分类器,确保我们的技术和数据的广泛可访问性。我们对FineWeb-2网络爬取数据集进行了全面的消融研究,涵盖了不同的语系、文字和资源可用性,以证明我们方法的有效性。通过使用10亿参数的Llama模型进行700亿和1190亿token的训练,我们的方法可以用低至15%的训练token匹配基线MMLU分数,同时在其他基准测试中也有所提高。这些发现为我们的方法对其他语言的泛化性提供了强有力的证据。因此,我们将我们的框架扩展到20种语言,并发布了经过改进的预训练数据集。

🔬 方法详解

问题定义:现有的多语言LLM预训练数据集过滤方法,尤其是基于模型的过滤方法,主要集中在英语上,导致非英语语言的数据质量参差不齐,影响了多语言LLM的性能。现有方法缺乏对不同语言的适应性和泛化能力,难以有效识别和选择高质量的非英语数据。

核心思路:论文的核心思路是利用基于Transformer和FastText的分类器,构建一个透明、简单且高效的基于模型的过滤框架,用于多语言数据集的数据选择。该框架旨在识别多样化的、结构化的和知识丰富的样本,从而提高多语言LLM的预训练效率和性能。通过对不同语言的数据进行分类和筛选,可以有效提升非英语语言的数据质量,从而提升多语言LLM的整体性能。

技术框架:该框架主要包含以下几个阶段:1) 数据预处理:对原始多语言数据集进行清洗和标准化。2) 特征提取:利用Transformer和FastText模型提取文本的特征表示。3) 数据分类:使用分类器对数据进行分类,例如,将数据分为结构化、知识丰富和非结构化等类别。4) 数据选择:根据分类结果,选择高质量的数据用于LLM的预训练。5) 模型训练与评估:使用选择后的数据训练LLM,并在多个基准测试上评估模型性能。

关键创新:该方法最重要的技术创新点在于提出了一个通用的、可扩展的基于模型的跨语言数据选择框架。与现有方法相比,该框架更加透明、简单和高效,并且能够有效处理不同语言的数据。此外,该方法还强调了数据多样性和质量的重要性,通过选择多样化的、结构化的和知识丰富的样本,可以显著提升LLM的预训练效果。

关键设计:在数据分类阶段,论文使用了基于Transformer和FastText的分类器。Transformer模型能够捕捉文本的上下文信息,而FastText模型则具有高效的计算速度。在数据选择阶段,论文采用了一种基于置信度的选择策略,即选择分类器置信度较高的数据。此外,论文还对不同语言的数据进行了加权处理,以平衡不同语言的数据量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用该方法选择的数据训练的10亿参数Llama模型,仅用15%的训练token就能达到基线模型的MMLU分数,并在其他基准测试中也有所提升。该方法在涵盖不同语系、文字和资源可用性的FineWeb-2数据集上进行了验证,证明了其有效性和泛化能力。论文还发布了20种语言的精炼预训练数据集。

🎯 应用场景

该研究成果可广泛应用于多语言LLM的预训练数据构建,提升模型在跨语言理解、机器翻译、多语言信息检索等领域的性能。高质量的多语言预训练数据能够促进更强大的多语言AI应用开发,例如跨语言客服机器人、全球化内容创作工具等,具有重要的实际价值和深远影响。

📄 摘要(原文)

Dataset curation has become a basis for strong large language model (LLM) performance. While various rule-based filtering heuristics exist for English and multilingual datasets, model-based filtering techniques have primarily focused on English. To address the disparity stemming from limited research on non-English languages, we propose a model-based filtering framework for multilingual datasets that aims to identify a diverse set of structured and knowledge-rich samples. Our approach emphasizes transparency, simplicity, and efficiency, leveraging Transformer- and FastText-based classifiers to ensure the broad accessibility of our technique and data. We conduct comprehensive ablation studies on the FineWeb-2 web crawl dataset across diverse language families, scripts, and resource availability to demonstrate the effectiveness of our method. Training a 1B-parameter Llama model for 70B and 119B tokens, our approach can match the baseline MMLU score with as little as 15% of the training tokens, while also improving across other benchmarks. These findings provide strong evidence for the generalizability of our approach to other languages. As a result, we extend our framework to 20 languages for which we release the refined pretraining datasets.