Open Generative Large Language Models for Galician

📄 arXiv: 2406.13893v1 📥 PDF

作者: Pablo Gamallo, Pablo Rodríguez, Iria de-Dios-Flores, Susana Sotelo, Silvia Paniagua, Daniel Bardanca, José Ramom Pichel, Marcos Garcia

分类: cs.CL

发布日期: 2024-06-19

备注: 12 pages, 1 figure


💡 一句话要点

提出面向加利西亚语的开源生成式大语言模型,提升小语种NLP技术可及性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 加利西亚语 大型语言模型 生成式模型 持续预训练 小语种NLP

📋 核心要点

  1. 现有LLM主要以英语为中心,导致小语种在NLP技术上存在性能差距和可及性问题。
  2. 论文提出通过持续预训练,将现有大型LLM适配到加利西亚语,缓解数据稀缺问题。
  3. 实验结果表明,该模型在加利西亚语任务上表现出良好的性能,验证了方法的有效性。

📝 摘要(中文)

大型语言模型(LLM)已经变革了自然语言处理领域。然而,它们主要以英语为中心的训练导致了跨语言的偏差和性能差异。这种不平衡边缘化了少数语言,使得资源较少的语言(如加利西亚语)更难获得公平的NLP技术。为了弥合这一差距,我们提出了首批专注于加利西亚语的生成式LLM。这些模型作为开源资源免费提供,使用具有13亿参数的GPT架构,在包含21亿词的语料库上进行训练。通过利用持续预训练,我们将两个现有的、在更大语料库上训练的LLM适配到加利西亚语,从而减轻了从头开始训练所产生的数据约束。这些模型通过人工评估和来自标准化基准的任务型数据集进行评估。这些评估显示出良好的性能,突出了语言多样性在生成模型中的重要性。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在小语种,特别是加利西亚语上的性能不足和资源匮乏问题。现有方法主要集中在英语等主流语言上,导致小语种在NLP应用中面临数据稀缺、模型效果差等挑战。从头训练小语种LLM成本高昂,且效果难以保证。

核心思路:论文的核心思路是利用迁移学习中的持续预训练(Continual Pretraining)方法,将已经在大型语料库上训练好的通用LLM,通过在加利西亚语语料库上进行进一步训练,使其适应加利西亚语的语言特性和任务需求。这种方法可以有效利用现有资源,降低训练成本,并提升模型在小语种上的性能。

技术框架:整体框架包括以下步骤:1) 选择预训练好的通用LLM作为基础模型;2) 收集和清洗加利西亚语语料库;3) 使用加利西亚语语料库对基础模型进行持续预训练;4) 在特定任务上对模型进行微调;5) 评估模型在加利西亚语任务上的性能。模型采用GPT架构,包含13亿参数。

关键创新:论文的关键创新在于将持续预训练方法应用于加利西亚语LLM的构建,并开源了训练好的模型。这为其他小语种的LLM研究提供了借鉴,并促进了小语种NLP技术的发展。通过持续预训练,模型能够更好地捕捉加利西亚语的语言模式,从而提升在相关任务上的表现。

关键设计:模型采用GPT架构,包含13亿参数。训练数据为包含21亿词的加利西亚语语料库。持续预训练的目标是最小化语言模型的交叉熵损失。具体的参数设置和训练策略(如学习率、batch size等)未知,论文中可能未详细描述。

🖼️ 关键图片

fig_0

📊 实验亮点

该研究构建了首批面向加利西亚语的开源生成式LLM,参数规模达13亿。通过人工评估和任务型数据集的评估,模型展现出良好的性能,验证了持续预训练在小语种LLM构建中的有效性。具体的性能数据和对比基线未知,论文中可能未详细描述。

🎯 应用场景

该研究成果可应用于加利西亚语的机器翻译、文本生成、问答系统、情感分析等多种NLP任务。它有助于提升加利西亚语在数字世界的存在感,促进语言和文化传承,并为其他小语种的NLP研究提供参考。

📄 摘要(原文)

Large language models (LLMs) have transformed natural language processing. Yet, their predominantly English-centric training has led to biases and performance disparities across languages. This imbalance marginalizes minoritized languages, making equitable access to NLP technologies more difficult for languages with lower resources, such as Galician. We present the first two generative LLMs focused on Galician to bridge this gap. These models, freely available as open-source resources, were trained using a GPT architecture with 1.3B parameters on a corpus of 2.1B words. Leveraging continual pretraining, we adapt to Galician two existing LLMs trained on larger corpora, thus mitigating the data constraints that would arise if the training were performed from scratch. The models were evaluated using human judgments and task-based datasets from standardized benchmarks. These evaluations reveal a promising performance, underscoring the importance of linguistic diversity in generative models.