Testing LLMs' Capabilities in Annotating Translations Based on an Error Typology Designed for LSP Translation: First Experiments with ChatGPT
作者: Joachim Minder, Guillaume Wisniewski, Natalie Kübler
分类: cs.CL, eess.AS
发布日期: 2025-04-21
备注: Accepted for publication in the proceedings of MT Summit 2025
💡 一句话要点
利用ChatGPT评估机器翻译质量:基于LSP翻译错误类型的初步实验
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器翻译质量评估 大型语言模型 ChatGPT 错误类型学 专业领域翻译
📋 核心要点
- 现有机器翻译质量评估方法在专业领域翻译中存在不足,难以准确识别和分类特定领域的翻译错误。
- 本研究利用ChatGPT,通过定制的错误类型学和不同的提示策略,评估其在标注专业领域机器翻译错误方面的能力。
- 实验结果表明,ChatGPT在评估DeepL翻译时表现良好,但在评估自身翻译时存在局限性,提示策略影响错误分类准确性。
📝 摘要(中文)
本研究探讨了大型语言模型(LLMs),特别是ChatGPT,在基于错误类型学标注机器翻译(MT)输出方面的能力。与以往主要关注通用语言的工作不同,我们探索了ChatGPT识别和分类专业翻译中错误的能力。通过测试两种不同的提示,并基于定制的错误类型学,我们将ChatGPT的标注与人类专家对DeepL和ChatGPT自身生成的翻译的评估进行了比较。结果表明,对于DeepL生成的翻译,召回率和精确率相当高。然而,错误分类的准确程度取决于提示的具体特征及其详细程度,ChatGPT在详细提示下表现非常好。在评估其自身翻译时,ChatGPT的结果明显较差,揭示了自我评估的局限性。这些结果突出了LLMs在翻译评估方面的潜力和局限性,尤其是在专业领域。我们的实验为未来对开源LLMs的研究铺平了道路,这些模型可以产生具有可比甚至更高质量的标注。未来,我们还计划在翻译培训的背景下测试这种自动化评估的实际效果,特别是通过优化教师的人工评估过程,并探索LLMs的标注对学生后期编辑和翻译学习的影响。
🔬 方法详解
问题定义:本研究旨在解决机器翻译质量评估在专业领域翻译中面临的挑战,特别是如何自动识别和分类翻译错误。现有方法,包括传统的BLEU等指标,难以捕捉专业领域翻译的细微差别和特定错误类型,人工评估成本高昂且耗时。
核心思路:核心思路是利用大型语言模型(LLMs)如ChatGPT的强大语言理解和生成能力,将其作为自动翻译质量评估器。通过定制专门针对专业领域翻译的错误类型学,并设计不同的提示策略,引导LLM识别和分类机器翻译输出中的错误。
技术框架:整体流程包括以下几个步骤:1) 使用DeepL和ChatGPT生成待评估的翻译结果;2) 基于定制的错误类型学,设计不同的提示(prompts),包括详细提示和简略提示;3) 使用ChatGPT对翻译结果进行错误标注;4) 将ChatGPT的标注结果与人工专家标注结果进行比较,计算召回率、精确率等指标,评估ChatGPT的性能。
关键创新:关键创新在于将LLM应用于专业领域翻译的质量评估,并针对性地设计了错误类型学和提示策略。以往的研究主要集中在通用领域的翻译评估,而本研究关注专业领域的特定错误类型,更具实际意义。此外,对比了不同提示策略对LLM评估性能的影响,为实际应用提供了指导。
关键设计:实验中使用了两种不同的提示:一种是详细提示,包含更详细的错误类型描述和示例;另一种是简略提示,只包含基本的错误类型名称。错误类型学是根据LSP(Language Service Provider)翻译的特点定制的,包含诸如术语错误、风格错误、信息缺失等类型。评估指标包括召回率、精确率和F1值,用于衡量ChatGPT识别和分类错误的准确性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ChatGPT在评估DeepL生成的翻译时,召回率和精确率较高,表明其具备一定的翻译质量评估能力。然而,错误分类的准确性受到提示策略的影响,详细提示能够显著提高分类准确性。此外,ChatGPT在评估自身翻译时表现较差,揭示了其自我评估的局限性。这些发现为LLM在翻译评估领域的应用提供了有价值的参考。
🎯 应用场景
该研究成果可应用于机器翻译质量评估、翻译教学和翻译辅助工具开发等领域。通过自动化评估机器翻译质量,可以降低人工评估成本,提高效率。在翻译教学中,可以利用LLM的标注结果帮助学生识别和纠正翻译错误。此外,还可以将LLM集成到翻译辅助工具中,为译员提供实时的质量反馈。
📄 摘要(原文)
This study investigates the capabilities of large language models (LLMs), specifically ChatGPT, in annotating MT outputs based on an error typology. In contrast to previous work focusing mainly on general language, we explore ChatGPT's ability to identify and categorise errors in specialised translations. By testing two different prompts and based on a customised error typology, we compare ChatGPT annotations with human expert evaluations of translations produced by DeepL and ChatGPT itself. The results show that, for translations generated by DeepL, recall and precision are quite high. However, the degree of accuracy in error categorisation depends on the prompt's specific features and its level of detail, ChatGPT performing very well with a detailed prompt. When evaluating its own translations, ChatGPT achieves significantly poorer results, revealing limitations with self-assessment. These results highlight both the potential and the limitations of LLMs for translation evaluation, particularly in specialised domains. Our experiments pave the way for future research on open-source LLMs, which could produce annotations of comparable or even higher quality. In the future, we also aim to test the practical effectiveness of this automated evaluation in the context of translation training, particularly by optimising the process of human evaluation by teachers and by exploring the impact of annotations by LLMs on students' post-editing and translation learning.