From Brazilian Portuguese to European Portuguese

📄 arXiv: 2408.07457v1 📥 PDF

作者: João Sanches, Rui Ribeiro, Luísa Coheur

分类: cs.CL

发布日期: 2024-08-14

备注: 12 pages, 8 tables


💡 一句话要点

提出一种基于LLM微调的巴西葡萄牙语到欧洲葡萄牙语翻译系统,并构建了高质量测试集。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器翻译 葡萄牙语 语言变体 大型语言模型 微调 平行语料 测试集

📋 核心要点

  1. 欧洲葡萄牙语翻译资源匮乏,影响翻译服务质量,亟需提升。
  2. 利用大型语言模型微调,构建巴西葡萄牙语到欧洲葡萄牙语的翻译系统。
  3. 构建包含500句的高质量测试集,并与ChatGPT 3.5 Turbo进行对比评估。

📝 摘要(中文)

巴西葡萄牙语和欧洲葡萄牙语是同一种语言的两种变体,尽管它们非常相似,但仍然存在一些差异。然而,两种变体的资源可用性存在显著的不平衡,巴西葡萄牙语拥有更丰富的资源。这种不平衡会影响欧洲葡萄牙语使用者可获得的翻译服务的质量。为了解决这个问题,我们提出开发一种巴西葡萄牙语到欧洲葡萄牙语的翻译系统,利用神经架构和模型的最新进展。为了评估此类系统的性能,我们手动策划了一个黄金测试集,包含五个不同主题的500个句子。黄金测试集中的每个句子都有两个不同的参考译文,便于对未来的翻译模型进行直接评估。我们通过使用从电影字幕和TED演讲稿中提取的巴西葡萄牙语和欧洲葡萄牙语并行数据,对现有的大型语言模型进行了微调,从而对各种模型进行了实验。我们的评估包括使用传统的自动指标以及人工评估。此外,所有模型都与ChatGPT 3.5 Turbo进行了比较,后者目前产生了最佳结果。

🔬 方法详解

问题定义:论文旨在解决巴西葡萄牙语到欧洲葡萄牙语翻译资源不平衡的问题。现有方法在欧洲葡萄牙语上的表现不佳,缺乏高质量的评估数据集,难以有效评估和提升翻译质量。

核心思路:论文的核心思路是利用现有的、更丰富的巴西葡萄牙语资源,通过微调大型语言模型(LLM)的方式,构建一个高性能的巴西葡萄牙语到欧洲葡萄牙语的翻译系统。同时,构建高质量的测试集,为模型评估提供可靠依据。

技术框架:整体框架包括数据收集与处理、模型微调和评估三个主要阶段。首先,从电影字幕和TED演讲稿中提取巴西葡萄牙语和欧洲葡萄牙语的并行数据。然后,利用这些数据对预训练的大型语言模型进行微调。最后,使用自动评估指标和人工评估,以及与ChatGPT 3.5 Turbo的对比,来评估模型的性能。

关键创新:论文的关键创新在于针对特定语言变体翻译任务,有效利用了大型语言模型的微调能力。同时,构建了高质量的黄金测试集,为该领域的研究提供了宝贵的资源。

关键设计:论文使用了从电影字幕和TED演讲稿中提取的并行数据进行微调。具体使用的LLM类型和微调策略(如学习率、batch size等)在论文中可能没有详细说明,属于未知信息。构建的黄金测试集包含500个句子,覆盖五个不同主题,每个句子有两个参考译文,以提高评估的可靠性。

📊 实验亮点

论文构建了包含500句的高质量黄金测试集,为巴西葡萄牙语到欧洲葡萄牙语的翻译研究提供了重要资源。实验结果表明,微调后的模型在一定程度上提升了翻译质量,并与当前最佳的ChatGPT 3.5 Turbo进行了对比,但具体的性能提升数据未知。

🎯 应用场景

该研究成果可应用于机器翻译、跨文化交流、教育等领域。高质量的翻译系统能够促进巴西葡萄牙语和欧洲葡萄牙语使用者之间的沟通,提高信息获取效率,并为相关领域的学术研究提供支持。未来,该方法可以推广到其他资源不平衡的语言变体翻译任务中。

📄 摘要(原文)

Brazilian Portuguese and European Portuguese are two varieties of the same language and, despite their close similarities, they exhibit several differences. However, there is a significant disproportion in the availability of resources between the two variants, with Brazilian Portuguese having more abundant resources. This inequity can impact the quality of translation services accessible to European Portuguese speakers. To address this issue, we propose the development of a Brazilian Portuguese to European Portuguese translation system, leveraging recent advancements in neural architectures and models. To evaluate the performance of such systems, we manually curated a gold test set comprising 500 sentences across five different topics. Each sentence in the gold test set has two distinct references, facilitating a straightforward evaluation of future translation models. We experimented with various models by fine-tuning existing Large Language Models using parallel data extracted from movie subtitles and TED Talks transcripts in both Brazilian and European Portuguese. Our evaluation involved the use of conventional automatic metrics as well as a human evaluation. In addition, all models were compared against ChatGPT 3.5 Turbo, which currently yields the best results.