Evaluating Large Language Models on Urdu Idiom Translation

📄 arXiv: 2510.17460v1 📥 PDF

作者: Muhammad Farmal Khan, Mousumi Akter

分类: cs.CL

发布日期: 2025-10-20


💡 一句话要点

构建乌尔都语成语翻译数据集,评估大型语言模型在低资源语言上的表现

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 乌尔都语翻译 成语翻译 低资源语言 大型语言模型 提示工程

📋 核心要点

  1. 低资源语言的成语翻译面临挑战,现有方法难以准确捕捉文化内涵。
  2. 构建乌尔都语-英语成语翻译数据集,并探索提示工程对LLM翻译效果的影响。
  3. 实验表明,提示工程能提升成语翻译质量,且原生乌尔都语输入优于罗马乌尔都语。

📝 摘要(中文)

成语翻译在机器翻译中仍然是一个重要的挑战,特别是对于像乌尔都语这样的低资源语言,并且之前受到的关注有限。为了推进该领域的研究,我们引入了首个乌尔都语到英语成语翻译的评估数据集,涵盖了原生乌尔都语和罗马乌尔都语两种脚本,并标注了黄金标准的英语等价物。我们评估了多个开源大型语言模型(LLM)和神经机器翻译(NMT)系统在该任务上的表现,重点关注它们保留成语和文化含义的能力。使用包括BLEU、BERTScore、COMET和XCOMET在内的自动指标来评估翻译质量。我们的研究结果表明,与直接翻译相比,提示工程可以增强成语翻译的效果,尽管不同提示类型之间的性能差异相对较小。此外,跨脚本比较表明,文本表示会显著影响翻译质量,原生乌尔都语输入比罗马乌尔都语产生更准确的成语翻译。

🔬 方法详解

问题定义:论文旨在解决乌尔都语成语翻译的难题,尤其是在低资源场景下,现有机器翻译模型难以准确翻译成语,无法保留其文化和习惯表达的精髓。现有方法缺乏针对乌尔都语成语翻译的专门数据集,阻碍了相关研究的进展。

核心思路:论文的核心思路是构建高质量的乌尔都语成语翻译数据集,并利用提示工程(Prompt Engineering)来引导大型语言模型(LLM)更好地理解和翻译成语。通过提供合适的上下文和指令,提升LLM在成语翻译任务中的表现。

技术框架:该研究的技术框架主要包括以下几个部分:1) 构建乌尔都语-英语成语翻译数据集,包含原生乌尔都语和罗马乌尔都语两种脚本;2) 选择多个开源LLM和NMT系统作为评估对象;3) 设计不同的提示模板,用于引导LLM进行成语翻译;4) 使用BLEU、BERTScore、COMET和XCOMET等自动指标评估翻译质量;5) 分析不同提示模板和输入脚本对翻译效果的影响。

关键创新:该论文的关键创新在于:1) 首次构建了乌尔都语到英语的成语翻译数据集,为该领域的研究提供了宝贵资源;2) 探索了提示工程在低资源语言成语翻译中的应用,并验证了其有效性;3) 比较了不同文本表示(原生乌尔都语 vs. 罗马乌尔都语)对翻译质量的影响。

关键设计:论文的关键设计包括:1) 数据集的构建过程,包括成语的选择、翻译和标注;2) 提示模板的设计,需要考虑如何有效地引导LLM理解成语的含义并生成准确的翻译;3) 评估指标的选择,需要能够准确反映翻译的质量,包括语义相似度和流畅度等。

📊 实验亮点

实验结果表明,提示工程能够有效提升LLM在乌尔都语成语翻译任务中的表现。此外,使用原生乌尔都语作为输入时,翻译质量明显优于罗马乌尔都语。具体性能数据(如BLEU、BERTScore等)在论文中进行了详细展示,为后续研究提供了参考基准。

🎯 应用场景

该研究成果可应用于机器翻译系统,提升低资源语言的翻译质量,尤其是在文化交流、教育和内容本地化等领域。高质量的成语翻译有助于更准确地传达原文的含义和文化背景,促进不同语言和文化之间的理解。未来,该研究可以扩展到其他低资源语言,并探索更先进的翻译模型和技术。

📄 摘要(原文)

Idiomatic translation remains a significant challenge in machine translation, especially for low resource languages such as Urdu, and has received limited prior attention. To advance research in this area, we introduce the first evaluation datasets for Urdu to English idiomatic translation, covering both Native Urdu and Roman Urdu scripts and annotated with gold-standard English equivalents. We evaluate multiple open-source Large Language Models (LLMs) and Neural Machine Translation (NMT) systems on this task, focusing on their ability to preserve idiomatic and cultural meaning. Automatic metrics including BLEU, BERTScore, COMET, and XCOMET are used to assess translation quality. Our findings indicate that prompt engineering enhances idiomatic translation compared to direct translation, though performance differences among prompt types are relatively minor. Moreover, cross script comparisons reveal that text representation substantially affects translation quality, with Native Urdu inputs producing more accurate idiomatic translations than Roman Urdu.