Two CFG Nahuatl for automatic corpora expansion
作者: Juan-José Guzmán-Landa, Juan-Manuel Torres-Moreno, Miguel Figueroa-Saavedra, Ligia Quintana-Torres, Graham Ranger Martha-Lorena Avendaño-Garrido
分类: cs.CL
发布日期: 2025-12-16
备注: 15 pages, 5 figures, 8 tables
💡 一句话要点
提出两种CFG Nahuatl方法,用于自动扩展Nawatl语料库
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 低资源语言处理 语料库扩展 上下文无关文法 Nawatl语 词嵌入
📋 核心要点
- Nawatl语作为一种低资源语言,缺乏足够的语料库来支持大型语言模型的训练。
- 论文提出使用上下文无关文法(CFG)自动生成句法正确的Nawatl语句,从而扩展语料库。
- 实验结果表明,使用扩展后的语料库训练的嵌入在语义相似性任务中表现更好,甚至优于某些大型语言模型。
📝 摘要(中文)
本文旨在介绍两种用于Nawatl语料库扩展的上下文无关文法(CFG)。Nawatl语是墨西哥的一种美洲印第安语(墨西哥的国家语言),属于$π$-语言类型,即数字资源匮乏的语言。因此,用于学习大型语言模型(LLM)的语料库实际上不存在,这构成了重大挑战。目标是生成大量句法上有效的Nawatl人工句子,从而扩展语料库,用于学习非上下文嵌入。为此,我们引入了两种新的Nawatl CFG,并在生成模式下使用它们。使用这些文法,可以显著扩展Nawatl语料库,随后可用于学习嵌入,并评估其在句子语义相似性任务中的相关性。结果表明,与仅使用原始语料库而不进行人工扩展相比,结果有所改善,并且还表明经济型嵌入通常比某些LLM表现更好。
🔬 方法详解
问题定义:Nawatl语是一种低资源语言,缺乏足够的语料库来训练大型语言模型。现有的Nawatl语料库规模小,质量不高,难以支持有效的语言模型学习。因此,如何扩展Nawatl语料库,是本文要解决的核心问题。
核心思路:论文的核心思路是利用上下文无关文法(CFG)自动生成句法正确的Nawatl语句。通过定义一套语法规则,可以生成大量符合Nawatl语法的句子,从而有效地扩展语料库。这种方法避免了人工标注的成本,并且可以快速生成大量的训练数据。
技术框架:该方法主要包含以下几个步骤:1) 定义Nawatl语的上下文无关文法(CFG);2) 使用CFG生成器生成大量的Nawatl语句;3) 将生成的语句添加到原始语料库中,形成扩展后的语料库;4) 使用扩展后的语料库训练词嵌入模型;5) 在句子语义相似性任务中评估词嵌入模型的性能。
关键创新:论文的关键创新在于针对Nawatl语设计了两种新的上下文无关文法(CFG)。这两种CFG能够生成句法正确的Nawatl语句,从而有效地扩展了Nawatl语料库。与传统的语料库扩展方法相比,该方法具有自动化程度高、成本低的优点。
关键设计:论文中设计了两种不同的CFG,具体文法规则未知。生成语句后,使用这些语句来扩充原始语料库,然后训练词嵌入模型。在句子语义相似性任务中,使用训练好的词嵌入模型来计算句子之间的相似度,并与使用原始语料库训练的模型进行比较。具体的参数设置、损失函数和网络结构等技术细节未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用CFG生成的语料库扩展后,训练的词嵌入模型在句子语义相似性任务中取得了显著的性能提升。与仅使用原始语料库训练的模型相比,性能有所提高,并且经济型嵌入甚至优于某些大型语言模型。具体的性能数据未知。
🎯 应用场景
该研究成果可应用于低资源语言的自然语言处理任务,例如机器翻译、文本分类、信息检索等。通过自动扩展语料库,可以提高低资源语言的语言模型性能,从而促进这些语言的数字化发展。此外,该方法也可以应用于其他资源匮乏的领域,例如古籍数字化、方言保护等。
📄 摘要(原文)
The aim of this article is to introduce two Context-Free Grammars (CFG) for Nawatl Corpora expansion. Nawatl is an Amerindian language (it is a National Language of Mexico) of the $π$-language type, i.e. a language with few digital resources. For this reason the corpora available for the learning of Large Language Models (LLMs) are virtually non-existent, posing a significant challenge. The goal is to produce a substantial number of syntactically valid artificial Nawatl sentences and thereby to expand the corpora for the purpose of learning non contextual embeddings. For this objective, we introduce two new Nawatl CFGs and use them in generative mode. Using these grammars, it is possible to expand Nawatl corpus significantly and subsequently to use it to learn embeddings and to evaluate their relevance in a sentences semantic similarity task. The results show an improvement compared to the results obtained using only the original corpus without artificial expansion, and also demonstrate that economic embeddings often perform better than some LLMs.