Enhancing Multilingual LLM Pretraining with Model-Based Data Selection

作者: Bettina Messmer, Vinko Sabolčec, Martin Jaggi

分类: cs.CL, cs.LG

发布日期: 2025-02-14

💡 一句话要点

提出基于模型的跨语言LLM预训练数据选择方法，提升模型性能和效率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多语言LLM 预训练数据选择 模型驱动过滤 Transformer FastText

📋 核心要点

现有LLM预训练的数据过滤方法主要集中在英语上，缺乏对非英语语言的有效支持。
论文提出一种基于模型的跨语言数据选择框架，旨在挑选多样化、结构化和知识丰富的样本。
实验表明，该方法能显著提升多语言LLM的训练效率，并提高在多种基准测试上的性能。

📝 摘要（中文）

数据集的精心选择已成为大型语言模型（LLM）取得卓越性能的基础。虽然针对英语和多语言数据集存在各种基于规则的过滤启发式方法，但基于模型的过滤技术主要集中在英语上。为了解决非英语语言研究有限所带来的差距，我们提出了一种针对多语言数据集的基于模型的过滤框架，旨在识别多样化的、结构化的和知识丰富的样本。我们的方法强调透明性、简单性和效率，利用基于Transformer和FastText的分类器，确保我们的技术和数据的广泛可访问性。我们对FineWeb-2网络爬取数据集进行了全面的消融研究，涵盖了不同的语系、文字和资源可用性，以证明我们方法的有效性。通过使用10亿参数的Llama模型进行700亿和1190亿token的训练，我们的方法可以用低至15%的训练token匹配基线MMLU分数，同时在其他基准测试中也有所提高。这些发现为我们的方法对其他语言的泛化性提供了强有力的证据。因此，我们将我们的框架扩展到20种语言，并发布了经过改进的预训练数据集。

🔬 方法详解

问题定义：现有的多语言LLM预训练数据集过滤方法，尤其是基于模型的过滤方法，主要集中在英语上，导致非英语语言的数据质量参差不齐，影响了多语言LLM的性能。现有方法缺乏对不同语言的适应性和泛化能力，难以有效识别和选择高质量的非英语数据。

核心思路：论文的核心思路是利用基于Transformer和FastText的分类器，构建一个透明、简单且高效的基于模型的过滤框架，用于多语言数据集的数据选择。该框架旨在识别多样化的、结构化的和知识丰富的样本，从而提高多语言LLM的预训练效率和性能。通过对不同语言的数据进行分类和筛选，可以有效提升非英语语言的数据质量，从而提升多语言LLM的整体性能。

技术框架：该框架主要包含以下几个阶段：1) 数据预处理：对原始多语言数据集进行清洗和标准化。2) 特征提取：利用Transformer和FastText模型提取文本的特征表示。3) 数据分类：使用分类器对数据进行分类，例如，将数据分为结构化、知识丰富和非结构化等类别。4) 数据选择：根据分类结果，选择高质量的数据用于LLM的预训练。5) 模型训练与评估：使用选择后的数据训练LLM，并在多个基准测试上评估模型性能。

关键创新：该方法最重要的技术创新点在于提出了一个通用的、可扩展的基于模型的跨语言数据选择框架。与现有方法相比，该框架更加透明、简单和高效，并且能够有效处理不同语言的数据。此外，该方法还强调了数据多样性和质量的重要性，通过选择多样化的、结构化的和知识丰富的样本，可以显著提升LLM的预训练效果。

关键设计：在数据分类阶段，论文使用了基于Transformer和FastText的分类器。Transformer模型能够捕捉文本的上下文信息，而FastText模型则具有高效的计算速度。在数据选择阶段，论文采用了一种基于置信度的选择策略，即选择分类器置信度较高的数据。此外，论文还对不同语言的数据进行了加权处理，以平衡不同语言的数据量。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用该方法选择的数据训练的10亿参数Llama模型，仅用15%的训练token就能达到基线模型的MMLU分数，并在其他基准测试中也有所提升。该方法在涵盖不同语系、文字和资源可用性的FineWeb-2数据集上进行了验证，证明了其有效性和泛化能力。论文还发布了20种语言的精炼预训练数据集。

🎯 应用场景

该研究成果可广泛应用于多语言LLM的预训练数据构建，提升模型在跨语言理解、机器翻译、多语言信息检索等领域的性能。高质量的多语言预训练数据能够促进更强大的多语言AI应用开发，例如跨语言客服机器人、全球化内容创作工具等，具有重要的实际价值和深远影响。

📄 摘要（原文）

Dataset curation has become a basis for strong large language model (LLM) performance. While various rule-based filtering heuristics exist for English and multilingual datasets, model-based filtering techniques have primarily focused on English. To address the disparity stemming from limited research on non-English languages, we propose a model-based filtering framework for multilingual datasets that aims to identify a diverse set of structured and knowledge-rich samples. Our approach emphasizes transparency, simplicity, and efficiency, leveraging Transformer- and FastText-based classifiers to ensure the broad accessibility of our technique and data. We conduct comprehensive ablation studies on the FineWeb-2 web crawl dataset across diverse language families, scripts, and resource availability to demonstrate the effectiveness of our method. Training a 1B-parameter Llama model for 70B and 119B tokens, our approach can match the baseline MMLU score with as little as 15% of the training tokens, while also improving across other benchmarks. These findings provide strong evidence for the generalizability of our approach to other languages. As a result, we extend our framework to 20 languages for which we release the refined pretraining datasets.

Enhancing Multilingual LLM Pretraining with Model-Based Data Selection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理