Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation

📄 arXiv: 2408.12780v2 📥 PDF

作者: Vivek Iyer, Bhavitvya Malik, Pavel Stepachev, Pinzhen Chen, Barry Haddow, Alexandra Birch

分类: cs.CL

发布日期: 2024-08-23 (更新: 2024-10-03)

备注: 10 pages, 6 figures


💡 一句话要点

针对低资源翻译,研究数据规模和多样性对LLM微调的影响

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 低资源翻译 大型语言模型 平行数据 数据多样性 监督式微调 机器翻译 语言迁移

📋 核心要点

  1. 现有LLM在低资源机器翻译任务中表现不佳,无法有效利用数据进行模型微调。
  2. 论文核心思想是重新评估平行数据和数据多样性在低资源LLM微调中的作用。
  3. 实验表明,平行数据对低资源LLM至关重要,而数据多样性可能导致性能下降。

📝 摘要(中文)

尽管大型语言模型(LLM)在机器翻译(MT)领域日益普及,但它们在低资源语言(LRL)上的性能仍然显著落后于神经机器翻译(NMT)模型。本文探讨了如何调整LLM以适应低资源环境。特别地,我们重新审视了两个因素的作用:a) 平行数据的重要性和应用,以及b) 监督式微调(SFT)中的多样性。最近,平行数据在调整LLM用于MT中的使用有所减少,而数据多样性已被广泛用于促进跨语言和任务的迁移。然而,对于低资源LLM-MT,我们表明,对于这两个考虑因素,情况恰恰相反:a) 平行数据在预训练和SFT期间都至关重要;b) 多样性往往会导致干扰而不是迁移。我们使用三个LLM在两个低资源语言组(美洲原住民和东北印度)上进行的实验揭示了一致的趋势,强调了我们发现的普遍性。我们相信这些见解对于扩展到能够有效服务于LRL的大规模多语言LLM-MT模型将非常有价值。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在低资源语言机器翻译(LRL-MT)任务中表现不佳的问题。现有方法在将LLM应用于LRL-MT时,往往侧重于数据多样性以促进跨语言迁移,而忽略了平行数据的重要性。这种做法导致LLM在LRL上的翻译性能仍然显著落后于传统的神经机器翻译(NMT)模型。

核心思路:论文的核心思路是重新强调平行数据在低资源LLM-MT中的关键作用,并质疑数据多样性在这种情况下的有效性。作者认为,对于LRL,平行数据能够提供更直接、更有效的监督信号,帮助LLM学习源语言和目标语言之间的映射关系。同时,过多的数据多样性可能会引入噪声和干扰,反而阻碍LLM的学习。

技术框架:论文采用监督式微调(SFT)的方式来调整LLM。具体流程包括:首先,选择一个预训练的LLM作为基础模型;然后,使用平行数据对LLM进行微调,使其适应LRL-MT任务;最后,评估微调后的LLM在LRL上的翻译性能。实验中使用了不同规模和架构的LLM,以及来自不同语系的LRL。

关键创新:论文的关键创新在于颠覆了以往对低资源机器翻译的认知。以往的研究倾向于认为数据多样性对于低资源场景下的模型泛化至关重要,而该论文则指出,在LLM应用于LRL-MT时,平行数据的重要性被低估了,而数据多样性可能会适得其反。

关键设计:论文的关键设计在于实验设置。作者选择了两个低资源语言组(美洲原住民和东北印度),并使用了三个不同的LLM进行实验,以验证结论的普遍性。此外,作者还仔细控制了平行数据和数据多样性的规模和质量,以确保实验结果的可靠性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在低资源语言翻译任务中,使用平行数据进行微调能够显著提升LLM的性能。与强调数据多样性的方法相比,专注于平行数据的方法在美洲原住民和东北印度语系上都取得了更好的翻译效果,验证了平行数据在低资源场景下的重要性。

🎯 应用场景

该研究成果可应用于提升低资源语言的机器翻译质量,促进文化交流和信息共享。通过更有效地利用平行数据,可以构建更强大的多语言LLM-MT模型,服务于全球范围内的低资源语言使用者,具有重要的社会价值。

📄 摘要(原文)

Despite the recent popularity of Large Language Models (LLMs) in Machine Translation (MT), their performance in low-resource languages (LRLs) still lags significantly behind Neural Machine Translation (NMT) models. In this work, we explore what it would take to adapt LLMs for the low-resource setting. Particularly, we re-examine the role of two factors: a) the importance and application of parallel data, and b) diversity in Supervised Fine-Tuning (SFT). Recently, parallel data has seen reduced use in adapting LLMs for MT, while data diversity has been embraced to promote transfer across languages and tasks. However, for low-resource LLM-MT, we show that the opposite is true for both considerations: a) parallel data is critical during both pre-training and SFT; b) diversity tends to cause interference instead of transfer. Our experiments with three LLMs across two low-resourced language groups -- Indigenous American and North-East Indian -- reveal consistent trends, underscoring the generalizability of our findings. We believe these insights will be valuable for scaling to massively multilingual LLM-MT models that can effectively serve LRLs.