Machine Translation Hallucination Detection for Low and High Resource Languages using Large Language Models
作者: Kenza Benkirane, Laura Gongas, Shahar Pelles, Naomi Fuchs, Joshua Darmon, Pontus Stenetorp, David Ifeoluwa Adelani, Eduardo Sánchez
分类: cs.CL, cs.AI
发布日期: 2024-07-23 (更新: 2024-10-20)
备注: Authors Kenza Benkirane and Laura Gongas contributed equally to this work
💡 一句话要点
利用大型语言模型检测机器翻译中的幻觉,提升低资源和高资源语言翻译质量
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器翻译 幻觉检测 大型语言模型 低资源语言 高资源语言 语义相似度 自然语言处理
📋 核心要点
- 现有机器翻译系统,尤其是在低资源语言上,仍存在生成幻觉的问题,严重影响用户信任。
- 本文探索利用大型语言模型(LLM)和语义相似性来检测机器翻译中的幻觉,无需专门的机器翻译训练。
- 实验表明,针对高资源语言,Llama3-70B表现最佳,而针对低资源语言,Claude Sonnet表现更优,但LLM在低资源语言上的优势相对较小。
📝 摘要(中文)
大规模多语言机器翻译系统在提升翻译准确率方面取得了显著进展,但即使是性能最佳的系统仍然会产生幻觉,严重影响用户信任。检测机器翻译(MT)中的幻觉仍然是一个关键挑战,特别是现有方法在高资源语言(HRL)上表现出色,但在应用于低资源语言(LRL)时表现出很大的局限性。本文评估了使用大型语言模型(LLM)和大规模多语言嵌入中的语义相似性进行句子级幻觉检测的方法。我们的研究涵盖了16个语言方向,包括高资源语言、低资源语言以及不同的文字。我们发现模型的选择对于性能至关重要。平均而言,对于高资源语言,Llama3-70B的Matthews相关系数(MCC)比之前的最佳水平高出0.16。然而,对于低资源语言,我们观察到Claude Sonnet的平均MCC优于其他LLM 0.03。本研究的主要结论是,尽管LLM没有经过任何机器翻译任务的明确训练,但它们可以达到与先前提出的模型相当甚至更好的性能。然而,它们在低资源语言方面的优势不太明显。
🔬 方法详解
问题定义:本文旨在解决机器翻译中存在的幻觉问题,即翻译结果中出现与原文不符或无意义的内容。现有方法在高资源语言上表现良好,但在低资源语言上效果不佳,缺乏对低资源语言幻觉检测的有效手段。
核心思路:论文的核心思路是利用大型语言模型(LLM)的强大语言理解和生成能力,以及语义相似性度量,来判断机器翻译结果是否与原文一致,从而检测幻觉。LLM能够理解源语言和目标语言的语义,并判断翻译结果是否合理。
技术框架:整体框架包括以下几个主要步骤:1) 使用机器翻译系统将源语言句子翻译成目标语言句子;2) 使用LLM对源语言句子和目标语言句子进行编码,提取语义表示;3) 计算源语言句子和目标语言句子的语义相似度;4) 根据语义相似度判断翻译结果是否为幻觉。如果相似度低于某个阈值,则认为翻译结果存在幻觉。
关键创新:该研究的关键创新在于探索了使用未经专门机器翻译训练的通用LLM进行幻觉检测的可能性。以往的幻觉检测方法通常需要针对特定语言对进行训练,而本文的方法具有更强的通用性和可扩展性。此外,论文还比较了不同LLM在幻觉检测任务上的性能,并针对高资源和低资源语言提出了不同的模型选择建议。
关键设计:论文的关键设计包括:1) 选择了多种LLM,包括Llama3-70B和Claude Sonnet,以评估不同模型的性能;2) 使用语义相似度作为判断幻觉的标准,并探索了不同的相似度计算方法;3) 针对高资源和低资源语言,分别选择了不同的模型和参数设置,以优化性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,对于高资源语言,Llama3-70B在幻觉检测任务上优于之前的最佳水平,Matthews相关系数(MCC)提升了0.16。对于低资源语言,Claude Sonnet表现最佳,平均MCC优于其他LLM 0.03。尽管LLM没有经过专门的机器翻译训练,但其性能与专门训练的模型相当甚至更好,尤其是在高资源语言上。该研究验证了LLM在机器翻译幻觉检测方面的潜力。
🎯 应用场景
该研究成果可应用于各种机器翻译系统,提高翻译质量和用户信任度。通过自动检测和纠正翻译中的幻觉,可以改善用户体验,尤其是在低资源语言的翻译场景中。此外,该方法还可以用于评估机器翻译系统的性能,指导模型的改进和优化。未来,该技术有望应用于更广泛的自然语言处理任务,例如文本摘要、对话生成等。
📄 摘要(原文)
Recent advancements in massively multilingual machine translation systems have significantly enhanced translation accuracy; however, even the best performing systems still generate hallucinations, severely impacting user trust. Detecting hallucinations in Machine Translation (MT) remains a critical challenge, particularly since existing methods excel with High-Resource Languages (HRLs) but exhibit substantial limitations when applied to Low-Resource Languages (LRLs). This paper evaluates sentence-level hallucination detection approaches using Large Language Models (LLMs) and semantic similarity within massively multilingual embeddings. Our study spans 16 language directions, covering HRLs, LRLs, with diverse scripts. We find that the choice of model is essential for performance. On average, for HRLs, Llama3-70B outperforms the previous state of the art by as much as 0.16 MCC (Matthews Correlation Coefficient). However, for LRLs we observe that Claude Sonnet outperforms other LLMs on average by 0.03 MCC. The key takeaway from our study is that LLMs can achieve performance comparable or even better than previously proposed models, despite not being explicitly trained for any machine translation task. However, their advantage is less significant for LRLs.