How Important is `Perfect' English for Machine Translation Prompts?

📄 arXiv: 2507.09509v2 📥 PDF

作者: Patrícia Schmidtová, Niyati Bafna, Seth Aycock, Gianluca Vico, Wiktor Kamzela, Katharina Hämmerl, Vilém Zouhar

分类: cs.CL

发布日期: 2025-07-13 (更新: 2025-08-30)


💡 一句话要点

研究用户提示中的错误对LLM机器翻译性能的影响

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器翻译 大型语言模型 提示工程 噪声鲁棒性 错误分析

📋 核心要点

  1. 大型语言模型在机器翻译中表现出色,但对提示词的质量非常敏感,容易受到错误和扰动的影响。
  2. 该研究系统评估了用户提示中不同类型的错误(人为和合成)对LLM机器翻译性能的影响。
  3. 实验结果表明,提示质量严重影响翻译性能,且不同类型的噪声对翻译质量的影响程度不同。

📝 摘要(中文)

大型语言模型(LLM)在近期的机器翻译评测中取得了优异的成绩,但同时也对用户提示中的错误和扰动非常敏感。本文系统性地评估了用户提示中人为的和合成的错误,对LLM在机器翻译和机器翻译评估这两项相关任务上的性能影响。我们提供了定量分析和定性见解,研究模型如何响应用户提示中不断增加的噪声。提示质量强烈影响翻译性能:在存在许多错误的情况下,即使是好的提示也可能不如没有错误的最小或较差的提示。然而,不同类型的噪声对翻译质量的影响不同,字符级别的和组合的噪声器比短语扰动更能降低性能。定性分析表明,较低的提示质量主要导致较差的指令遵循,而不是直接影响翻译质量本身。此外,LLM仍然可以在存在大量随机噪声的情况下进行翻译,而这些噪声会使提示对人类来说难以辨认。

🔬 方法详解

问题定义:论文旨在研究用户提供的机器翻译提示中存在的各种错误(包括人为错误和合成错误)对大型语言模型(LLM)翻译性能的影响。现有方法通常假设用户提供的是高质量、无错误的提示,但实际应用中用户输入的质量参差不齐,这可能导致LLM的翻译效果下降。因此,研究LLM对提示错误的鲁棒性至关重要。

核心思路:论文的核心思路是通过系统性地引入不同类型的噪声到用户提示中,然后观察LLM在机器翻译任务上的表现变化。通过定量分析和定性分析,揭示不同类型的噪声对翻译质量的影响程度,以及LLM处理错误提示的方式。这样可以帮助我们更好地理解LLM的弱点,并为改进LLM的鲁棒性提供指导。

技术框架:该研究的技术框架主要包括以下几个步骤: 1. 构建数据集:选择用于机器翻译和机器翻译评估的数据集。 2. 生成噪声提示:使用人为的和合成的方法,在原始提示中引入不同类型的噪声,例如字符级别的错误、短语级别的扰动等。 3. LLM翻译:使用LLM对带有噪声的提示进行翻译。 4. 性能评估:使用BLEU等指标评估LLM的翻译质量,并进行定量分析。 5. 定性分析:分析LLM在处理不同类型的噪声提示时的行为,例如指令遵循情况、翻译错误类型等。

关键创新:该研究的关键创新在于: 1. 系统性地研究了不同类型的提示错误对LLM机器翻译性能的影响,而不仅仅是关注LLM本身的性能。 2. 结合定量分析和定性分析,深入理解LLM处理错误提示的方式。 3. 揭示了不同类型的噪声对翻译质量的影响程度不同,为改进LLM的鲁棒性提供了新的思路。

关键设计:论文中关键的设计包括: 1. 噪声类型:设计了多种类型的噪声,包括人为错误(例如拼写错误、语法错误)和合成错误(例如随机字符替换、短语打乱)。 2. 噪声强度:控制不同类型噪声的强度,例如字符替换的比例、短语打乱的范围。 3. 评估指标:使用BLEU等常用的机器翻译评估指标,以及人工评估,来衡量翻译质量。 4. LLM选择:选择了多个具有代表性的LLM进行实验,以验证结论的普适性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提示质量对翻译性能有显著影响,大量错误会导致即使是好的提示也表现不佳。字符级别和组合噪声比短语扰动对性能的损害更大。即使提示包含大量随机噪声,LLM仍然可以进行翻译,但较低的提示质量主要导致指令遵循能力下降,而非直接影响翻译质量。

🎯 应用场景

该研究成果可应用于提升机器翻译系统的鲁棒性和用户体验。通过了解LLM对不同类型提示错误的敏感程度,可以设计更有效的提示工程方法,或者开发自动纠错机制,从而提高机器翻译在实际应用中的可靠性。此外,该研究也为LLM的安全性研究提供了参考,有助于发现和缓解LLM在处理恶意或错误输入时的潜在风险。

📄 摘要(原文)

Large language models (LLMs) have achieved top results in recent machine translation evaluations, but they are also known to be sensitive to errors and perturbations in their prompts. We systematically evaluate how both humanly plausible and synthetic errors in user prompts affect LLMs' performance on two related tasks: Machine translation and machine translation evaluation. We provide both a quantitative analysis and qualitative insights into how the models respond to increasing noise in the user prompt. The prompt quality strongly affects the translation performance: With many errors, even a good prompt can underperform a minimal or poor prompt without errors. However, different noise types impact translation quality differently, with character-level and combined noisers degrading performance more than phrasal perturbations. Qualitative analysis reveals that lower prompt quality largely leads to poorer instruction following, rather than directly affecting translation quality itself. Further, LLMs can still translate in scenarios with overwhelming random noise that would make the prompt illegible to humans.