Enhancing Translation Accuracy of Large Language Models through Continual Pre-Training on Parallel Data
作者: Minato Kondo, Takehito Utsuro, Masaaki Nagata
分类: cs.CL
发布日期: 2024-07-03
备注: IWSLT2024, 18 pages
💡 一句话要点
提出基于并行数据持续预训练的大语言模型翻译精度提升方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器翻译 持续预训练 大语言模型 并行数据 低资源翻译
📋 核心要点
- 现有神经机器翻译模型在处理低资源或特定领域数据时面临挑战,翻译质量难以保证。
- 论文提出利用并行数据对预训练大语言模型进行持续预训练,提升模型对翻译任务的适应性。
- 实验结果表明,交替使用源语言和目标语言句子进行持续预训练,并添加标签可显著提高翻译精度。
📝 摘要(中文)
本文提出了一种两阶段训练方法,首先在并行数据上对预训练的大语言模型进行持续预训练,然后使用少量高质量的并行数据进行监督微调。为了研究该方法的有效性,我们使用一个38亿参数的模型和八种不同格式的并行数据进行了持续预训练。我们在13个日语到英语和英语到日语的翻译测试集上评估了这些方法。结果表明,在持续预训练中使用并行数据时,源句和目标句交替出现至关重要。此外,我们证明了翻译精度仅在持续预训练数据和推理中源句和目标句顺序一致的翻译方向上有所提高。此外,我们证明了基于LLM的翻译模型在翻译口语方面更具鲁棒性,并且与监督编码器-解码器模型相比,使用更少的训练数据即可实现更高的精度。我们还表明,当持续预训练的数据由交错的源句和目标句组成,并且在源句中添加标签时,可以获得最高的精度。
🔬 方法详解
问题定义:现有神经机器翻译模型,特别是基于Encoder-Decoder架构的模型,在面对特定领域或低资源场景时,往往需要大量的领域内数据进行微调才能获得较好的翻译效果。然而,高质量的领域内并行数据获取成本高昂,限制了模型的应用范围。此外,传统的Encoder-Decoder模型在处理长文本翻译时,容易出现信息丢失的问题。
核心思路:本论文的核心思路是利用大规模预训练语言模型(LLM)的强大语言建模能力,通过在并行数据上进行持续预训练,使模型更好地理解源语言和目标语言之间的对应关系,从而提升翻译精度。这种方法避免了从头开始训练翻译模型,而是利用了预训练模型已经学习到的通用语言知识,并通过并行数据进行领域知识的补充。
技术框架:该方法主要包含两个阶段:1) 持续预训练阶段:使用大规模并行数据对预训练的LLM进行持续预训练。关键在于并行数据的组织方式,包括源语言和目标语言句子的排列顺序以及是否添加标签。2) 监督微调阶段:使用少量高质量的并行数据对持续预训练后的模型进行微调,进一步提升翻译性能。整个流程旨在利用LLM的通用语言能力和并行数据的领域知识,从而实现高效且高质量的翻译。
关键创新:该方法的关键创新在于利用持续预训练的方式,将并行数据融入到LLM中,从而提升其翻译能力。与传统的微调方法相比,持续预训练能够使模型更好地适应翻译任务,并减少对高质量并行数据的依赖。此外,论文还发现,源语言和目标语言句子的交替排列以及添加标签能够进一步提升翻译精度。
关键设计:在持续预训练阶段,论文尝试了多种并行数据的组织方式,包括:1) 源语言句子在前,目标语言句子在后;2) 目标语言句子在前,源语言句子在后;3) 源语言和目标语言句子交替排列。实验结果表明,交替排列的方式效果最好。此外,论文还在源语言句子中添加了标签,例如“[SRC]”,以帮助模型区分源语言和目标语言。在监督微调阶段,使用了标准的交叉熵损失函数进行训练。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在日语到英语和英语到日语的翻译任务中,使用并行数据进行持续预训练可以显著提高翻译精度。特别是,当源语言和目标语言句子交替排列,并在源语言句子中添加标签时,可以获得最高的精度。此外,基于LLM的翻译模型在翻译口语方面表现出更强的鲁棒性,并且与传统的监督编码器-解码器模型相比,使用更少的训练数据即可达到更高的精度。
🎯 应用场景
该研究成果可应用于机器翻译领域,尤其是在低资源语言对和特定领域翻译任务中具有重要价值。通过利用大规模并行数据进行持续预训练,可以显著提升翻译模型的性能,降低对高质量标注数据的依赖,从而降低翻译成本,提高翻译效率。未来,该方法有望应用于跨语言信息检索、多语言对话系统等领域。
📄 摘要(原文)
In this paper, we propose a two-phase training approach where pre-trained large language models are continually pre-trained on parallel data and then supervised fine-tuned with a small amount of high-quality parallel data. To investigate the effectiveness of our proposed approach, we conducted continual pre-training with a 3.8B-parameter model and parallel data across eight different formats. We evaluate these methods on thirteen test sets for Japanese-to-English and English-to-Japanese translation. The results demonstrate that when utilizing parallel data in continual pre-training, it is essential to alternate between source and target sentences. Additionally, we demonstrated that the translation accuracy improves only for translation directions where the order of source and target sentences aligns between continual pre-training data and inference. In addition, we demonstrate that the LLM-based translation model is more robust in translating spoken language and achieves higher accuracy with less training data compared to supervised encoder-decoder models. We also show that the highest accuracy is achieved when the data for continual pre-training consists of interleaved source and target sentences and when tags are added to the source sentences.