Low-Resource Machine Translation through Retrieval-Augmented LLM Prompting: A Study on the Mambai Language

📄 arXiv: 2404.04809v1 📥 PDF

作者: Raphaël Merx, Aso Mahmudi, Katrina Langford, Leo Alberto de Araujo, Ekaterina Vylomova

分类: cs.CL

发布日期: 2024-04-07


💡 一句话要点

通过检索增强的LLM提示实现低资源机器翻译

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 低资源机器翻译 大型语言模型 Mambai语言 语料库构建 翻译质量评估 TF-IDF 语义嵌入 少量示例提示

📋 核心要点

  1. 现有的机器翻译方法在低资源语言翻译中面临数据稀缺和翻译质量不均的问题。
  2. 本研究提出通过检索增强的LLM提示,结合词典条目和检索句子,以提高翻译准确性。
  3. 实验结果显示,使用新语料库的BLEU分数在不同测试集上差异显著,最高可达21.2,表明方法有效性。

📝 摘要(中文)

本研究探讨了使用大型语言模型(LLMs)将英语翻译为Mambai语,这是一种在东帝汶使用的低资源南岛语,约有20万母语者。我们利用从Mambai语言手册和母语者翻译的额外句子中衍生的新语料库,研究了在这一低资源背景下,少量示例LLM提示的有效性。我们的研究表明,包含词典条目和通过TF-IDF及语义嵌入检索的句子组合显著提高了翻译质量。尽管如此,测试集之间的翻译性能差异明显,语言手册材料的BLEU分数高达21.2,而母语者提供的测试集最高仅为4.4。这些结果强调了在评估低资源语言机器翻译时,多样化和具有代表性的语料库的重要性。我们的研究为低资源机器翻译的少量示例LLM提示提供了见解,并提供了Mambai语言的初步语料库。

🔬 方法详解

问题定义:本研究旨在解决低资源语言Mambai的机器翻译问题,现有方法在数据稀缺情况下难以保证翻译质量,尤其是在不同语料来源的表现差异明显。

核心思路:通过少量示例的LLM提示,结合从词典和检索句子中提取的信息,增强翻译模型的上下文理解能力,从而提高翻译的准确性和一致性。

技术框架:整体流程包括语料库构建、句子选择、LLM提示生成和翻译质量评估。首先构建包含Mambai语的语料库,然后选择适合的句子和词典条目进行提示,最后使用不同的LLM进行翻译并评估效果。

关键创新:本研究的创新点在于结合了词典条目与检索句子的混合提示策略,这在低资源语言翻译中尚属首次,显著提升了翻译质量。

关键设计:在参数设置上,使用TF-IDF和语义嵌入技术进行句子检索,确保所选句子与翻译任务的相关性,同时采用BLEU分数作为主要评估指标,确保结果的可比性。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,使用新构建的语料库,BLEU分数在语言手册材料上达到21.2,而在母语者提供的测试集上仅为4.4,显示出翻译性能在不同数据集上的显著差异。这一发现强调了多样化语料库在低资源语言翻译中的重要性。

🎯 应用场景

该研究的潜在应用领域包括低资源语言的机器翻译、跨语言信息检索及多语言学习工具的开发。通过提供Mambai语言的初步语料库,能够促进该语言的数字化和保护,提升其在全球化背景下的可用性与传播。未来,该方法也可扩展至其他低资源语言的翻译任务,具有广泛的实际价值。

📄 摘要(原文)

This study explores the use of large language models (LLMs) for translating English into Mambai, a low-resource Austronesian language spoken in Timor-Leste, with approximately 200,000 native speakers. Leveraging a novel corpus derived from a Mambai language manual and additional sentences translated by a native speaker, we examine the efficacy of few-shot LLM prompting for machine translation (MT) in this low-resource context. Our methodology involves the strategic selection of parallel sentences and dictionary entries for prompting, aiming to enhance translation accuracy, using open-source and proprietary LLMs (LlaMa 2 70b, Mixtral 8x7B, GPT-4). We find that including dictionary entries in prompts and a mix of sentences retrieved through TF-IDF and semantic embeddings significantly improves translation quality. However, our findings reveal stark disparities in translation performance across test sets, with BLEU scores reaching as high as 21.2 on materials from the language manual, in contrast to a maximum of 4.4 on a test set provided by a native speaker. These results underscore the importance of diverse and representative corpora in assessing MT for low-resource languages. Our research provides insights into few-shot LLM prompting for low-resource MT, and makes available an initial corpus for the Mambai language.