Fluency and Faithfulness in Human and Machine Literary Translation

作者: Sarah Griebel, Ted Underwood

分类: cs.CL

发布日期: 2026-05-14

备注: Accepted NLP4DH 2026

💡 一句话要点

研究表明文学翻译中流畅性与忠实性存在权衡，大型语言模型亦然。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文学翻译 机器翻译 流畅性 忠实性 大型语言模型

📋 核心要点

文学翻译面临流畅性与忠实性难以兼顾的挑战，现有方法难以同时保证二者。
该研究通过分析大量翻译文本，揭示了流畅性与忠实性之间的负相关关系。
实验结果表明，人类翻译和Google翻译都存在这种权衡，TranslateGemma表现稍好。

📝 摘要（中文）

文学翻译需要在目标语言的流畅性和对源语言的忠实性之间取得平衡。最近的大型语言模型（LLMs）通常产生流畅的翻译，但尚不清楚流畅性是否对应于文学文本中的语义保留。我们使用来自16种源语言的106部小说中的130,486个翻译段落，包括人工翻译、Google翻译和TranslateGemma翻译，来检验这种关系。流畅性通过在段落词性n-gram上训练的翻译文体分类器来衡量，忠实性通过自动翻译评估指标COMET-KIWI来衡量。我们控制了段落长度，发现流畅性和忠实性之间存在一致的负相关关系。这种模式出现在人工翻译和Google翻译中，但在TranslateGemma中较弱且通常不显着。这些结果表明，段落长度对于自动评估很重要，并表明文学翻译中存在流畅性和忠实性之间的权衡。

🔬 方法详解

问题定义：论文旨在研究文学翻译中流畅性与忠实性之间的关系。现有方法，特别是基于大型语言模型的自动翻译，虽然在流畅性方面表现出色，但其语义保留能力，即忠实性，在文学文本中仍有待考量。现有研究缺乏对这种权衡关系的深入分析，尤其是在控制段落长度等因素的情况下。

核心思路：论文的核心思路是通过量化流畅性和忠实性，并分析它们之间的相关性来揭示文学翻译中的权衡关系。具体来说，论文使用翻译文体分类器来衡量流畅性，使用COMET-KIWI指标来衡量忠实性，并通过统计分析来研究它们之间的关系。控制段落长度是为了消除其对评估结果的干扰。

技术框架：整体框架包括以下几个步骤：1) 数据收集：收集包含人工翻译、Google翻译和TranslateGemma翻译的文学段落；2) 特征提取：使用词性n-gram训练翻译文体分类器，用于衡量流畅性；使用COMET-KIWI评估指标衡量忠实性；3) 统计分析：控制段落长度，计算流畅性和忠实性之间的相关性；4) 结果分析：比较不同翻译系统（人工、Google翻译、TranslateGemma）在流畅性和忠实性之间的权衡关系。

关键创新：该研究的关键创新在于：1) 系统性地研究了文学翻译中流畅性与忠实性之间的权衡关系，并提供了量化的证据；2) 使用翻译文体分类器来衡量流畅性，这是一种新颖的方法；3) 考虑了段落长度对评估结果的影响，并进行了控制。与现有方法相比，该研究更注重对文学翻译本质的理解，而不仅仅是追求单一指标的提升。

关键设计：在流畅性评估方面，使用在段落词性n-gram上训练的翻译文体分类器，具体实现细节（如n-gram的阶数、分类器的类型等）未知。在忠实性评估方面，使用COMET-KIWI指标，该指标是一种基于神经网络的自动翻译评估指标。在统计分析方面，使用相关性分析来衡量流畅性和忠实性之间的关系，并控制了段落长度的影响。具体的参数设置和损失函数等细节未知。

🖼️ 关键图片

📊 实验亮点

研究发现，在文学翻译中，流畅性与忠实性之间存在显著的负相关关系，这一结论在人工翻译和Google翻译中均得到验证。TranslateGemma的表现相对较好，但相关性较弱。该研究强调了段落长度对自动评估的重要性，并为文学翻译的质量评估提供了新的视角。

🎯 应用场景

该研究成果可应用于改进机器翻译系统，尤其是在文学翻译领域。通过更好地理解流畅性与忠实性之间的权衡，可以设计出更符合文学作品特点的翻译模型。此外，该研究也为人工翻译提供了参考，帮助译者在翻译过程中更好地平衡流畅性和忠实性，提升翻译质量。未来，该研究可以扩展到其他类型的文本翻译，并探索更多影响翻译质量的因素。

📄 摘要（原文）

Literary translation requires balancing target-language fluency with faithfulness to the source. Recent large language models (LLMs) often produce fluent translations, but it remains unclear whether fluency corresponds to semantic preservation in literary text. We examine this relationship using 130,486 translated paragraphs from 106 novels in 16 source languages, including human, Google Translate, and TranslateGemma translations. Fluency is measured as original-likeness with a translationese classifier trained on paragraph part-of-speech n-grams, and faithfulness with the automatic translation evaluation metric COMET-KIWI. We control for paragraph length and find a consistent negative correlation between fluency and faithfulness. The pattern appears for both human and Google Translate, but is weaker and often non-significant for TranslateGemma. These results show that segment length matters for automatic evaluation and suggest a tradeoff between fluency and faithfulness in literary translation.

Fluency and Faithfulness in Human and Machine Literary Translation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理