NusaMT-7B: Machine Translation for Low-Resource Indonesian Languages with Large Language Models

📄 arXiv: 2410.07830v1 📥 PDF

作者: William Tan, Kevin Zhu

分类: cs.CL

发布日期: 2024-10-10

备注: Accepted to SoLaR @ NeurIPS 2024


💡 一句话要点

NusaMT-7B:利用大型语言模型提升低资源印尼语机器翻译性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 低资源翻译 机器翻译 大型语言模型 微调 自学习

📋 核心要点

  1. 现有大型语言模型在低资源语言翻译中受限于数据稀缺和噪声,导致性能不佳。
  2. NusaMT-7B通过持续预训练、监督微调、自学习和数据清洗,提升低资源翻译质量。
  3. 实验表明,NusaMT-7B在巴厘语和米南佳保语翻译上超越现有模型,最高提升6.69 spBLEU。

📝 摘要(中文)

大型语言模型(LLMs)在高资源语言的翻译任务中表现出卓越的潜力。然而,由于平行语料库和单语语料库的稀缺以及噪声的存在,它们在低资源语言中的性能受到限制。因此,这些LLM在对齐方面表现不佳,并且落后于这些环境中的最先进(SoTA)神经机器翻译(NMT)模型。本文介绍了NusaMT-7B,一种基于LLM的低资源印尼语(从巴厘语和米南佳保语开始)机器翻译模型。我们的方法利用预训练的LLaMA2-7B,集成了单语数据上的持续预训练、监督微调(SFT)、自学习和基于LLM的数据清洗器,以减少平行句子中的噪声。在FLORES-200多语言翻译基准测试中,NusaMT-7B在spBLEU指标上优于SoTA模型,在翻译成巴厘语和米南佳保语时最高提升+6.69 spBLEU,但在翻译成较高资源语言时表现不佳,最高下降-3.38 spBLEU。我们的结果表明,微调的LLM可以提高低资源语言的翻译质量,有助于语言保护和跨文化交流。

🔬 方法详解

问题定义:论文旨在解决低资源印尼语(如巴厘语和米南佳保语)的机器翻译问题。现有方法,特别是基于大型语言模型的方法,在这些语言上表现不佳,主要原因是缺乏足够的平行语料和单语语料,以及语料中存在噪声,导致模型难以有效学习和对齐。

核心思路:论文的核心思路是利用预训练的大型语言模型(LLaMA2-7B)作为基础,通过一系列微调策略,包括持续预训练、监督微调、自学习和数据清洗,来提升其在低资源印尼语上的翻译能力。这种方法旨在克服数据稀缺和噪声问题,使模型能够更好地捕捉低资源语言的特征。

技术框架:NusaMT-7B的整体框架包括以下几个主要阶段:1) 基于LLaMA2-7B进行初始化;2) 在单语数据上进行持续预训练,以增强模型对目标语言的理解;3) 使用平行语料进行监督微调(SFT),使模型学习翻译任务;4) 利用自学习方法,通过模型自身生成的数据进行训练,进一步提升性能;5) 使用基于LLM的数据清洗器,过滤平行语料中的噪声。

关键创新:该论文的关键创新在于将多种技术手段结合起来,针对低资源语言翻译的特点进行优化。特别是,使用LLM进行数据清洗,可以有效去除平行语料中的噪声,从而提高训练数据的质量。此外,自学习方法的应用也有助于模型利用自身生成的伪数据进行学习,弥补数据稀缺的不足。

关键设计:论文中没有详细说明具体的参数设置、损失函数或网络结构等技术细节。但是,可以推断,监督微调阶段可能使用了交叉熵损失函数,并且针对低资源语言的特点,可能对模型的学习率、dropout率等超参数进行了调整。数据清洗器的具体实现方式也未知,但推测是利用LLM的文本生成和评估能力,对平行语料的质量进行打分和过滤。

📊 实验亮点

NusaMT-7B在FLORES-200基准测试中,翻译成巴厘语和米南佳保语时,spBLEU指标分别提升了高达+6.69。虽然在翻译成高资源语言时性能有所下降(最高下降-3.38 spBLEU),但整体结果表明,该方法在低资源语言翻译方面具有显著优势,超越了现有最先进的模型。

🎯 应用场景

该研究成果可应用于低资源语言的机器翻译,促进跨文化交流和语言保护。NusaMT-7B模型可以帮助将巴厘语、米南佳保语等语言的内容翻译成其他语言,方便信息传播和文化交流。未来,该方法可以推广到其他低资源语言,并应用于教育、旅游、新闻等领域。

📄 摘要(原文)

Large Language Models (LLMs) have demonstrated exceptional promise in translation tasks for high-resource languages. However, their performance in low-resource languages is limited by the scarcity of both parallel and monolingual corpora, as well as the presence of noise. Consequently, such LLMs suffer with alignment and have lagged behind State-of-The-Art (SoTA) neural machine translation (NMT) models in these settings. This paper introduces NusaMT-7B, an LLM-based machine translation model for low-resource Indonesian languages, starting with Balinese and Minangkabau. Leveraging the pretrained LLaMA2-7B, our approach integrates continued pre-training on monolingual data, Supervised Fine-Tuning (SFT), self-learning, and an LLM-based data cleaner to reduce noise in parallel sentences. In the FLORES-200 multilingual translation benchmark, NusaMT-7B outperforms SoTA models in the spBLEU metric by up to +6.69 spBLEU in translations into Balinese and Minangkabau, but underperforms by up to -3.38 spBLEU in translations into higher-resource languages. Our results show that fine-tuned LLMs can enhance translation quality for low-resource languages, aiding in linguistic preservation and cross-cultural communication.