Corpora deduplication or duplication in Natural Language Processing of few resourced languages ? A case of study: The Mexico's Nahuatl

📄 arXiv: 2604.07015v1 📥 PDF

作者: Juan-José Guzman-Landa, Juan-Manuel Torres-Moreno, Graham Ranger, Miguel Figueroa-Saavedra, Martha-Lorena Avendaño-Garrido, Elvys Linhares-Pontes, Luis-Gil Moreno-Jiménez

分类: cs.CL

发布日期: 2026-04-08

备注: 8 pages, 1 figure, 1 table


💡 一句话要点

针对低资源语言,研究语料重复对自然语言处理的影响:以墨西哥纳瓦特尔语为例

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 低资源语言 自然语言处理 语料库扩展 数据增强 纳瓦特尔语

📋 核心要点

  1. 低资源语言的NLP面临语料库稀缺的挑战,严重制约了大型语言模型的训练和性能。
  2. 该研究探索通过增量复制现有语料库来扩展数据,旨在提升低资源语言的NLP任务效果。
  3. 实验结果表明,增量复制方法在纳瓦特尔语的句子级语义相似性任务中取得了适度的性能提升。

📝 摘要(中文)

本文旨在探讨数据重复在计算资源有限的语言(π-语言)的自然语言处理(NLP)中是否有用。针对这类语言,用于训练大型语言模型的语料库几乎不存在。本文以纳瓦特尔语为例,这是一种拥有超过200万使用者,且具有大量方言变体的粘着性和多综合性π-语言,研究语料库扩展的影响。目标是通过可控地复制新的π-yalli语料库(包含有限数量的纳瓦特尔语文本)来扩展它。实验采用增量复制技术,旨在学习适用于NLP任务的嵌入。静态嵌入经过训练,并在句子级语义相似性任务中进行评估。结果表明,与仅使用未扩展的语料库相比,使用增量复制在性能上有所适度提高。据我们所知,该技术尚未在文献中使用。

🔬 方法详解

问题定义:论文旨在解决低资源语言(特别是纳瓦特尔语)在自然语言处理中因缺乏大规模语料库而导致模型训练困难的问题。现有方法无法有效利用有限的语料库,导致模型性能不佳。

核心思路:论文的核心思路是通过有控制地重复现有语料库来增加训练数据量,从而改善模型的学习效果。这种方法基于一个假设:在数据极度稀缺的情况下,适度的重复可以帮助模型更好地捕捉语言的内在结构和模式。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 构建或收集一个小的纳瓦特尔语语料库(π-yalli语料库)。2) 使用增量复制技术对该语料库进行扩展,即逐步增加语料库的重复次数。3) 使用扩展后的语料库训练静态词嵌入模型。4) 在句子级别的语义相似度任务上评估训练得到的词嵌入模型的性能。

关键创新:该研究的关键创新在于探索了语料库重复技术在低资源语言NLP中的应用。虽然数据增强技术在其他领域已被广泛使用,但在低资源语言的语料库扩展方面,这种简单而直接的重复方法尚未得到充分研究。

关键设计:该研究的关键设计包括:1) 增量复制策略,即逐步增加语料库的重复次数,而不是一次性大量复制。2) 使用静态词嵌入模型,例如Word2Vec或GloVe,进行训练。3) 使用句子级别的语义相似度任务作为评估指标,以衡量词嵌入的质量。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,与仅使用原始语料库相比,使用增量复制技术扩展语料库后,在纳瓦特尔语的句子级语义相似性任务中,模型性能得到了适度的提升。这验证了语料库重复技术在低资源语言NLP中的有效性,为后续研究提供了有益的参考。

🎯 应用场景

该研究成果可应用于各种低资源语言的自然语言处理任务,例如机器翻译、文本分类、信息检索等。通过语料库重复技术,可以有效提升这些任务的性能,促进低资源语言的信息化发展,并有助于保护和传承这些语言。

📄 摘要(原文)

In this article, we seek to answer the following question: could data duplication be useful in Natural Language Processing (NLP) for languages with limited computational resources? In this type of languages (or $π$-languages), corpora available for training Large Language Models are virtually non-existent. In particular, we will study the impact of corpora expansion in Nawatl, an agglutinative and polysynthetic $π$-language spoken by over 2 million people, with a large number of dialectal varieties. The aim is to expand the new $π$-yalli corpus, which contains a limited number of Nawatl texts, by duplicating it in a controlled way. In our experiments, we will use the incremental duplication technique. The aim is to learn embeddings that are well-suited to NLP tasks. Thus, static embeddings were trained and evaluated in a sentence-level semantic similarity task. Our results show a moderate improvement in performance when using incremental duplication compared to the results obtained using only the corpus without expansion. Furthermore, to our knowledge, this technique has not yet been used in the literature.