Building High-Quality Datasets for Portuguese LLMs: From Common Crawl Snapshots to Industrial-Grade Corpora

📄 arXiv: 2509.08824v1 📥 PDF

作者: Thales Sales Almeida, Rodrigo Nogueira, Helio Pedrini

分类: cs.CL

发布日期: 2025-09-10


💡 一句话要点

提出葡萄牙语LLM高质量数据集构建方法,性能媲美工业级语料库

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 葡萄牙语LLM 数据集构建 数据过滤 持续预训练 多语言模型

📋 核心要点

  1. 现有LLM训练数据构建主要集中于英语,缺乏针对其他语言的有效方法。
  2. 论文探索了可扩展的Web语料库构建方法,并针对葡萄牙语进行了优化。
  3. 实验表明,特定语言的过滤和预处理能有效提升LLM在目标语言上的性能。

📝 摘要(中文)

大型语言模型(LLM)的性能深受其训练数据的质量和组成的影响。虽然现有工作主要集中在英语上,但对于如何构建其他语言的有效训练语料库仍然存在差距。本文探索了用于构建LLM的基于Web的可扩展语料库的方法,并将其应用于构建一个新的1200亿token的葡萄牙语语料库,该语料库的性能与工业级语料库相当。通过持续预训练设置,研究了不同的数据选择和预处理策略在将最初用英语训练的模型过渡到另一种语言时如何影响LLM的性能。研究结果表明了特定于语言的过滤管道的价值,包括用于教育、科学、技术、工程和数学(STEM)以及有害内容的分类器。结果表明,将模型适应目标语言可以提高性能,从而加强了高质量、特定于语言的数据的重要性。虽然案例研究侧重于葡萄牙语,但本文的方法适用于其他语言,为多语言LLM的开发提供了见解。

🔬 方法详解

问题定义:论文旨在解决为葡萄牙语等非英语语言构建高质量LLM训练语料库的问题。现有方法在处理非英语语料时,缺乏针对特定语言的有效过滤和预处理策略,导致模型性能受限。此外,如何高效地从大规模Web数据中提取高质量数据也是一个挑战。

核心思路:论文的核心思路是构建一个特定于葡萄牙语的、包含高质量内容的数据集,并通过持续预训练的方式,将一个已经在英语上训练过的LLM迁移到葡萄牙语。通过语言相关的过滤管道,包括STEM和有害内容分类器,来提高数据集的质量。

技术框架:整体框架包括以下几个主要阶段:1) 从Common Crawl等Web数据源收集原始文本数据;2) 应用语言识别技术筛选出葡萄牙语文本;3) 使用特定于语言的过滤管道,包括STEM内容分类器和有害内容检测器,过滤低质量和有害内容;4) 对过滤后的数据进行预处理,例如去除重复文本、标准化格式等;5) 使用处理后的数据对LLM进行持续预训练。

关键创新:论文的关键创新在于提出了一个针对葡萄牙语的、包含高质量内容的数据集构建流程,并验证了该流程的有效性。特别地,论文强调了语言特定过滤管道的重要性,例如STEM内容分类器和有害内容检测器,这些管道能够有效地提高数据集的质量。

关键设计:论文中,STEM内容分类器和有害内容检测器是关键设计。STEM内容分类器用于识别和保留与教育、科学、技术、工程和数学相关的高质量内容。有害内容检测器用于识别和过滤包含仇恨言论、辱骂等有害内容。这些分类器可以使用现有的预训练模型进行微调,也可以从头开始训练。此外,持续预训练的参数设置,例如学习率、batch size等,也需要根据具体情况进行调整。

📊 实验亮点

论文构建了一个1200亿token的葡萄牙语语料库,并使用该语料库对LLM进行了持续预训练。实验结果表明,使用该语料库训练的模型性能与使用工业级语料库训练的模型性能相当,验证了该方法的有效性。此外,实验还表明,特定于语言的过滤管道能够显著提高数据集的质量和模型性能。

🎯 应用场景

该研究成果可应用于构建各种非英语语言的高质量LLM训练数据集,提升多语言LLM的性能。该方法在机器翻译、跨语言信息检索、多语言内容生成等领域具有广泛的应用前景,有助于推动全球范围内的人工智能发展。

📄 摘要(原文)

The performance of large language models (LLMs) is deeply influenced by the quality and composition of their training data. While much of the existing work has centered on English, there remains a gap in understanding how to construct effective training corpora for other languages. We explore scalable methods for building web-based corpora for LLMs. We apply them to build a new 120B token corpus in Portuguese that achieves competitive results to an industrial-grade corpus. Using a continual pretraining setup, we study how different data selection and preprocessing strategies affect LLM performance when transitioning a model originally trained in English to another language. Our findings demonstrate the value of language-specific filtering pipelines, including classifiers for education, science, technology, engineering, and mathematics (STEM), as well as toxic content. We show that adapting a model to the target language leads to performance improvements, reinforcing the importance of high-quality, language-specific data. While our case study focuses on Portuguese, our methods are applicable to other languages, offering insights for multilingual LLM development.