When the Gold Standard isn't Necessarily Standard: Challenges of Evaluating the Translation of User-Generated Content

作者: Lydia Nishimwe, Benoît Sagot, Rachel Bawden

分类: cs.CL

发布日期: 2025-12-19

备注: 10 pages, 19 pages with references and appendices

💡 一句话要点

针对用户生成内容翻译评估标准不统一问题，提出一套标准性感知的评估框架。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 用户生成内容翻译 机器翻译评估 非标准语言处理 大型语言模型 翻译指南

📋 核心要点

现有UGC翻译评估缺乏统一标准，不同数据集对非标准语言的处理方式差异大，导致评估结果不可靠。
提出一种标准性感知的评估框架，通过分析现有数据集的翻译指南，构建非标准现象和翻译操作的分类法。
实验表明，大型语言模型的翻译质量受提示词中翻译指令的影响，与数据集指南对齐的指令能提升翻译分数。

📝 摘要（中文）

用户生成内容(UGC)的特点是频繁使用非标准语言，包括拼写错误、俚语、字符重复和表情符号等表达方式。这使得UGC翻译的评估极具挑战性：何为“好的”翻译取决于输出中期望的标准程度。为了探讨这一点，我们研究了四个UGC数据集的人工翻译指南，并推导出一个包含十二种非标准现象和五种翻译操作（标准化、复制、转移、省略、审查）的分类法。我们的分析揭示了UGC处理方式的显著差异，导致参考翻译中存在一个标准性谱。通过对大型语言模型(LLM)的案例研究，我们表明翻译分数对带有明确UGC翻译指令的提示非常敏感，并且当这些指令与数据集的指南对齐时，翻译分数会提高。我们认为，当保留UGC风格很重要时，公平的评估要求模型和指标都意识到翻译指南。最后，我们呼吁在数据集创建过程中制定明确的指南，并为UGC翻译开发可控的、感知指南的评估框架。

🔬 方法详解

问题定义：论文旨在解决用户生成内容（UGC）翻译评估中缺乏统一标准的问题。现有方法在评估UGC翻译时，没有充分考虑UGC本身所具有的非标准性特征，例如拼写错误、俚语、表情符号等。不同数据集在构建时，对这些非标准现象的处理方式各不相同，导致评估标准不一致，使得模型难以进行公平比较和有效优化。现有评估指标也难以准确反映翻译质量，尤其是在需要保留UGC风格的情况下。

核心思路：论文的核心思路是建立一个标准性感知的UGC翻译评估框架。该框架的核心在于理解和量化不同数据集对UGC非标准性的处理策略，并将其纳入评估过程。通过分析现有UGC数据集的翻译指南，论文构建了一个非标准现象和翻译操作的分类法，从而能够更细粒度地理解和比较不同数据集的标准性偏好。在此基础上，可以设计更合理的评估指标和提示策略，以提高评估的准确性和公平性。

技术框架：论文的技术框架主要包含以下几个阶段：1) 数据收集与分析：收集并分析四个UGC数据集的翻译指南，提取其中关于非标准语言处理的规则。2) 分类法构建：基于分析结果，构建一个包含十二种非标准现象和五种翻译操作的分类法。3) 案例研究：使用大型语言模型（LLM）进行UGC翻译实验，并根据不同的提示策略和数据集指南进行评估。4) 结果分析与讨论：分析实验结果，探讨不同提示策略和数据集指南对翻译质量的影响，并提出改进建议。

关键创新：论文最重要的技术创新点在于提出了一个标准性感知的UGC翻译评估框架，该框架能够显式地考虑UGC的非标准性特征，并将其纳入评估过程。与现有方法相比，该框架能够更准确地评估UGC翻译的质量，尤其是在需要保留UGC风格的情况下。此外，论文构建的非标准现象和翻译操作分类法，为UGC翻译评估提供了一个更细粒度的分析工具。

关键设计：论文的关键设计包括：1) 非标准现象分类：定义了十二种常见的UGC非标准现象，例如拼写错误、语法错误、俚语、表情符号等。2) 翻译操作分类：定义了五种针对非标准现象的翻译操作，包括标准化（NORMALISE）、复制（COPY）、转移（TRANSFER）、省略（OMIT）和审查（CENSOR）。3) 提示策略设计：设计了不同的提示策略，以控制LLM在翻译过程中对非标准现象的处理方式。4) 评估指标选择：选择合适的评估指标，例如BLEU、ROUGE等，并根据数据集指南进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，大型语言模型的翻译质量对提示词中的翻译指令非常敏感。当提示词与数据集的翻译指南对齐时，翻译分数显著提高。例如，当提示词明确要求保留UGC风格时，模型能够更好地处理非标准语言现象，从而获得更高的评估分数。这表明，在UGC翻译评估中，考虑数据集的标准性偏好至关重要。

🎯 应用场景

该研究成果可应用于机器翻译、自然语言处理等领域，尤其是在处理社交媒体文本、在线评论等用户生成内容时，能够提高翻译质量和评估的准确性。通过制定明确的UGC翻译指南，可以促进跨语言交流，并更好地理解不同文化背景下的用户表达。未来，该研究可进一步扩展到其他非标准语言场景，例如语音识别、文本生成等。

📄 摘要（原文）

User-generated content (UGC) is characterised by frequent use of non-standard language, from spelling errors to expressive choices such as slang, character repetitions, and emojis. This makes evaluating UGC translation particularly challenging: what counts as a "good" translation depends on the level of standardness desired in the output. To explore this, we examine the human translation guidelines of four UGC datasets, and derive a taxonomy of twelve non-standard phenomena and five translation actions (NORMALISE, COPY, TRANSFER, OMIT, CENSOR). Our analysis reveals notable differences in how UGC is treated, resulting in a spectrum of standardness in reference translations. Through a case study on large language models (LLMs), we show that translation scores are highly sensitive to prompts with explicit translation instructions for UGC, and that they improve when these align with the dataset's guidelines. We argue that when preserving UGC style is important, fair evaluation requires both models and metrics to be aware of translation guidelines. Finally, we call for clear guidelines during dataset creation and for the development of controllable, guideline-aware evaluation frameworks for UGC translation.

When the Gold Standard isn't Necessarily Standard: Challenges of Evaluating the Translation of User-Generated Content

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理