Matina: A Large-Scale 73B Token Persian Text Corpus
作者: Sara Bourbour Hosseinbeigi, Fatemeh Taherinezhad, Heshaam Faili, Hamed Baghbani, Fatemeh Nadi, Mostafa Amiri
分类: cs.CL, cs.AI
发布日期: 2025-02-13
💡 一句话要点
发布大规模波斯语文本语料库Matina,促进波斯语NLP模型发展
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 波斯语NLP 文本语料库 大规模数据集 自然语言处理 Transformer模型
📋 核心要点
- 现有的波斯语数据集规模小、多样性不足,限制了波斯语NLP模型和LLM的发展。
- Matina语料库通过收集和预处理729亿token的波斯语文本,提供大规模高质量的训练数据。
- 通过在NLP任务上训练Transformer模型,验证了Matina语料库的有效性,并公开数据集和代码。
📝 摘要(中文)
本文介绍了一个新的大规模波斯语文本语料库Matina,它包含729亿个token。现有的波斯语数据集通常规模较小,内容多样性不足,主要由网络日志和新闻文章组成。高质量、多样化数据的短缺阻碍了波斯语NLP模型和开源LLM的发展。为了解决这个问题,我们构建了Matina语料库,该语料库经过仔细的预处理和去重,以确保高质量。我们还通过在关键NLP任务上训练和评估基于Transformer的模型来评估其有效性。数据集和预处理代码均已公开,使研究人员能够在此基础上构建和改进此资源,以促进未来的波斯语NLP发展。
🔬 方法详解
问题定义:论文旨在解决波斯语NLP领域缺乏大规模、高质量文本语料库的问题。现有波斯语数据集规模小,内容单一,主要集中在新闻和博客等领域,无法满足训练大型语言模型的需求。这阻碍了波斯语NLP技术的发展,例如文本摘要、机器翻译等任务的性能提升。
核心思路:论文的核心思路是构建一个大规模、多样化的波斯语文本语料库,并通过严格的预处理和去重操作,保证数据的质量。通过提供高质量的训练数据,促进波斯语NLP模型的发展,并为研究人员提供一个有价值的资源。
技术框架:Matina语料库的构建主要包括数据收集、预处理和评估三个阶段。数据收集阶段从多个来源收集波斯语文本数据,包括网页、书籍、新闻文章等。预处理阶段包括文本清洗、分词、去重等操作,以提高数据质量。评估阶段通过在NLP任务上训练Transformer模型,评估语料库的有效性。
关键创新:Matina语料库的关键创新在于其规模和质量。与现有波斯语数据集相比,Matina语料库的规模更大,包含更多样化的内容。同时,通过严格的预处理和去重操作,保证了数据的质量,避免了冗余和噪声数据对模型训练的影响。
关键设计:论文中没有详细描述具体的参数设置、损失函数、网络结构等技术细节。但是,论文强调了预处理的重要性,包括文本清洗、分词和去重等步骤。这些步骤对于提高数据质量,从而提升模型性能至关重要。具体预处理方法和工具的选择可能取决于数据的特点和任务的需求。
🖼️ 关键图片
📊 实验亮点
论文通过在关键NLP任务上训练Transformer模型,验证了Matina语料库的有效性。虽然论文摘要中没有给出具体的性能数据和提升幅度,但强调了该语料库能够为波斯语NLP模型提供高质量的训练数据,从而提升模型性能。数据集和预处理代码的公开,也为后续研究提供了便利。
🎯 应用场景
Matina语料库可广泛应用于各种波斯语NLP任务,如文本摘要、机器翻译、情感分析、问答系统等。它能够促进波斯语大型语言模型的发展,并提升相关应用的性能。该语料库的公开,将加速波斯语NLP领域的研究进展,并为相关产业提供技术支持。
📄 摘要(原文)
Text corpora are essential for training models used in tasks like summarization, translation, and large language models (LLMs). While various efforts have been made to collect monolingual and multilingual datasets in many languages, Persian has often been underrepresented due to limited resources for data collection and preprocessing. Existing Persian datasets are typically small and lack content diversity, consisting mainly of weblogs and news articles. This shortage of high-quality, varied data has slowed the development of NLP models and open-source LLMs for Persian. Since model performance depends heavily on the quality of training data, we address this gap by introducing the Matina corpus, a new Persian dataset of 72.9B tokens, carefully preprocessed and deduplicated to ensure high data quality. We further assess its effectiveness by training and evaluating transformer-based models on key NLP tasks. Both the dataset and preprocessing codes are publicly available, enabling researchers to build on and improve this resource for future Persian NLP advancements.