Pula: Training Large Language Models for Setswana
作者: Nathan Brown, Vukosi Marivate
分类: cs.CL
发布日期: 2024-08-05 (更新: 2025-04-28)
备注: NAACL 2025. 10 pages, 5 tables, 1 figure
💡 一句话要点
Pula:训练用于塞茨瓦纳语的大型语言模型,性能超越GPT-4o和Gemini 1.5 Pro
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 塞茨瓦纳语 低资源语言 机器翻译 指令调优 数据增强 模型微调
📋 核心要点
- 现有大型语言模型在低资源语言(如塞茨瓦纳语)上的表现不足,缺乏高质量的数据集和模型。
- Pula通过构建大规模塞茨瓦纳语语料库Marothodi和指令调优数据集Medupi,并在此基础上训练双语模型,显著提升了模型性能。
- 实验结果表明,Pula 8B和14B在塞茨瓦纳语翻译和推理任务上超越了GPT-4o和Gemini 1.5 Pro等大型模型。
📝 摘要(中文)
本文介绍了Pula,一套精通塞茨瓦纳语和英语的双语语言模型。Pula 8B和Pula 14B利用数据可用性的最新进展和高效的微调技术,在英语-塞茨瓦纳语翻译任务上优于GPT-4o和Gemini 1.5 Pro,并在其规模下在塞茨瓦纳语推理任务上实现了最先进的性能。我们发布了Pula 1B、3B、8B和14B的权重,以及训练日志和训练及评估代码。与Pula一起,我们发布了有史以来最大的塞茨瓦纳语文本语料库Marothodi,以及第一个全面的塞茨瓦纳语指令调优数据集Medupi,该数据集由重新格式化的数据集、翻译的语料库和合成的LLM生成的文本组成。为了配合这些数据,我们发布了用于数据集构建、格式化、过滤和抓取的代码。最后,我们发布了两个塞茨瓦纳语LLM翻译的基准测试,MMLU-tsn和GSM8K-tsn,以衡量塞茨瓦纳语的知识和推理能力。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在塞茨瓦纳语等低资源语言上的性能瓶颈问题。现有方法面临数据稀缺、模型泛化能力弱等挑战,难以有效处理塞茨瓦纳语的翻译和推理任务。
核心思路:论文的核心思路是构建大规模的塞茨瓦纳语数据集,并利用这些数据对现有的大型语言模型进行微调,从而提升模型在塞茨瓦纳语上的性能。通过数据增强和指令调优,使模型更好地理解和生成塞茨瓦纳语。
技术框架:整体框架包括数据收集与构建、模型训练与微调、以及性能评估三个主要阶段。首先,收集并构建大规模的塞茨瓦纳语文本语料库Marothodi和指令调优数据集Medupi。然后,利用这些数据集对不同规模(1B, 3B, 8B, 14B)的Pula模型进行微调。最后,使用MMLU-tsn和GSM8K-tsn等基准测试评估模型的性能。
关键创新:论文的关键创新在于构建了大规模的塞茨瓦纳语数据集Marothodi和Medupi,这是首次针对塞茨瓦纳语的全面指令调优数据集。此外,通过对现有大型语言模型进行微调,实现了在塞茨瓦纳语翻译和推理任务上的显著性能提升。
关键设计:数据集构建方面,采用了数据清洗、过滤、翻译和合成等技术,确保数据集的质量和多样性。模型训练方面,采用了高效的微调策略,并针对塞茨瓦纳语的特点进行了优化。评估方面,构建了MMLU-tsn和GSM8K-tsn等基准测试,用于全面评估模型的知识和推理能力。
📊 实验亮点
Pula 8B和Pula 14B在英语-塞茨瓦纳语翻译任务上超越了GPT-4o和Gemini 1.5 Pro,并在塞茨瓦纳语推理任务上达到了同等规模模型的最佳性能。论文发布了Pula 1B、3B、8B和14B的模型权重,以及训练日志和代码,为后续研究提供了宝贵的资源。
🎯 应用场景
该研究成果可应用于机器翻译、教育、信息检索等领域,促进塞茨瓦纳语的数字化和文化传承。Pula模型的发布将有助于开发更多面向塞茨瓦纳语用户的AI应用,例如智能客服、内容创作和语言学习工具。未来,该研究可以推广到其他低资源语言,推动全球语言平等。
📄 摘要(原文)
In this work we present Pula, a suite of bilingual language models proficient in both Setswana and English. Leveraging recent advancements in data availability and efficient fine-tuning, Pula 8B and Pula 14B outperform GPT-4o and Gemini 1.5 Pro on English-Setswana translation tasks and achieve state-of-the-art performance on Setswana reasoning tasks for their size. We release the weights for Pula 1B, 3B, 8B, and 14B as well as training logs and training and evaluation code. Alongside Pula, we release the largest-ever Setswana text corpus, Marothodi, and the first comprehensive Setswana instruction-tuning dataset, Medupi, consisting of reformatted datasets, translated corpora, and synthetic LLM-generated text. To accompany this data, we release the code used for dataset construction, formatting, filtering, and scraping. Last, we release two Setswana LLM-translated benchmarks, MMLU-tsn and GSM8K-tsn, to measure Setswana knowledge and reasoning capabilities.