Large Language Models for Persian $ \leftrightarrow $ English Idiom Translation

📄 arXiv: 2412.09993v2 📥 PDF

作者: Sara Rezaeimanesh, Faezeh Hosseini, Yadollah Yaghoobzadeh

分类: cs.CL

发布日期: 2024-12-13 (更新: 2025-02-21)


💡 一句话要点

利用大型语言模型进行波斯语-英语习语翻译研究

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 机器翻译 习语翻译 波斯语 英语

📋 核心要点

  1. 现有神经机器翻译系统在处理习语等比喻性语言时存在不足,大型语言模型展现出更强的潜力。
  2. 论文探索了不同提示方法以及LLM与NMT模型组合对习语翻译效果的影响,旨在优化翻译质量。
  3. 实验结果表明,Claude-3.5-Sonnet在波斯语-英语双向习语翻译中表现优异,特定组合策略可进一步提升翻译效果。

📝 摘要(中文)

大型语言模型(LLMs)在翻译比喻性语言方面表现出优于神经机器翻译(NMT)系统的能力。然而,不同的提示方法和LLM-NMT组合对习语翻译的影响尚未得到充分研究。本文介绍了两个包含习语表达的平行句子数据集,用于波斯语$ ightarrow$英语和英语$ ightarrow$波斯语翻译,其中波斯语习语来自我们的 PersianIdioms 资源,该资源收集了 2,200 个习语及其含义,其中 700 个包含用法示例。使用这些数据集,我们评估了各种开源和闭源 LLM、NMT 模型及其组合。通过习语翻译准确性和流畅性来评估翻译质量。我们还发现,像 LLM-as-a-judge、BLEU 和 BERTScore 这样的自动评估方法对于比较模型性能的不同方面是有效的。我们的实验表明,Claude-3.5-Sonnet 在两个翻译方向上都提供了出色的结果。对于英语$ ightarrow$波斯语,将较弱的 LLM 与 Google 翻译相结合可以提高结果,而波斯语$ ightarrow$英语翻译则受益于简单模型的单提示和高级模型的复杂提示。

🔬 方法详解

问题定义:论文旨在解决波斯语和英语之间习语翻译的难题。现有神经机器翻译系统在处理习语时,由于习语的特殊性和上下文依赖性,往往无法准确翻译其含义,导致翻译质量下降。因此,如何提高机器翻译系统对习语的翻译准确性和流畅性是本研究的核心问题。

核心思路:论文的核心思路是利用大型语言模型(LLMs)强大的语言理解和生成能力,结合不同的提示方法和LLM-NMT模型组合,来提高习语翻译的质量。通过对不同模型和方法的评估,找到最优的翻译策略。

技术框架:论文的技术框架主要包括以下几个部分:1) 构建波斯语-英语习语平行语料库;2) 评估各种开源和闭源LLM(如Claude-3.5-Sonnet)和NMT模型在习语翻译上的性能;3) 研究不同的提示方法对LLM翻译效果的影响,包括单提示和复杂提示;4) 探索LLM和NMT模型的组合策略,例如将较弱的LLM与Google Translate结合;5) 使用自动评估指标(如BLEU、BERTScore和LLM-as-a-judge)评估翻译质量。

关键创新:论文的关键创新在于:1) 构建了大规模的波斯语-英语习语平行语料库,为习语翻译研究提供了数据基础;2) 系统地评估了各种LLM和NMT模型在习语翻译上的性能,并分析了不同提示方法和模型组合策略的影响;3) 提出了将较弱的LLM与Google Translate结合的策略,有效提高了英语$ ightarrow$波斯语的翻译质量。

关键设计:论文的关键设计包括:1) 针对不同复杂度的模型,设计了不同的提示策略,例如对简单模型使用单提示,对高级模型使用复杂提示;2) 使用LLM-as-a-judge作为自动评估指标,更准确地评估翻译质量;3) 针对英语$ ightarrow$波斯语翻译,探索了将较弱的LLM与Google Translate结合的策略,并取得了较好的效果。具体参数设置和网络结构等细节在论文中未详细说明,属于未知信息。

📊 实验亮点

实验结果表明,Claude-3.5-Sonnet在波斯语-英语双向习语翻译中表现出色。对于英语$ ightarrow$波斯语翻译,将较弱的LLM与Google Translate结合可以提高翻译质量。对于波斯语$ ightarrow$英语翻译,简单模型使用单提示,高级模型使用复杂提示可以获得更好的效果。自动评估方法如LLM-as-a-judge、BLEU和BERTScore能够有效比较不同模型性能。

🎯 应用场景

该研究成果可应用于机器翻译系统、语言学习工具、跨文化交流平台等领域。高质量的习语翻译能够提升机器翻译的准确性和流畅性,帮助用户更好地理解和使用外语,促进不同文化之间的交流和理解。未来,该研究可进一步扩展到其他语言对,并应用于更广泛的自然语言处理任务中。

📄 摘要(原文)

Large language models (LLMs) have shown superior capabilities in translating figurative language compared to neural machine translation (NMT) systems. However, the impact of different prompting methods and LLM-NMT combinations on idiom translation has yet to be thoroughly investigated. This paper introduces two parallel datasets of sentences containing idiomatic expressions for Persian$\rightarrow$English and English$\rightarrow$Persian translations, with Persian idioms sampled from our PersianIdioms resource, a collection of 2,200 idioms and their meanings, with 700 including usage examples. Using these datasets, we evaluate various open- and closed-source LLMs, NMT models, and their combinations. Translation quality is assessed through idiom translation accuracy and fluency. We also find that automatic evaluation methods like LLM-as-a-judge, BLEU, and BERTScore are effective for comparing different aspects of model performance. Our experiments reveal that Claude-3.5-Sonnet delivers outstanding results in both translation directions. For English$\rightarrow$Persian, combining weaker LLMs with Google Translate improves results, while Persian$\rightarrow$English translations benefit from single prompts for simpler models and complex prompts for advanced ones.