Beyond Reproduction: A Paired-Task Framework for Assessing LLM Comprehension and Creativity in Literary Translation

📄 arXiv: 2604.18169v1 📥 PDF

作者: Ran Zhang, Steffen Eger, Arda Tezcan, Wei Zhao, Simone Paolo Ponzetto, Lieve Macken

分类: cs.CL, cs.AI

发布日期: 2026-04-20

备注: Accepted to ACL 2026 Findings


💡 一句话要点

提出配对任务框架,评估LLM在文学翻译中的理解与创造力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文学翻译 大型语言模型 创造性评估 配对任务框架 创造潜力单元 源文本理解 机器翻译

📋 核心要点

  1. 现有研究缺乏对LLM文学翻译创造性的充分评估,且源文本理解与创造性翻译通常被割裂研究。
  2. 论文提出配对任务框架,分别评估LLM对源文本的理解能力和翻译文本的创造性,二者紧密结合。
  3. 实验表明,即使具备较强理解能力,LLM在文学翻译创造性方面仍与人类存在较大差距,提示工程效果有限。

📝 摘要(中文)

大型语言模型(LLMs)越来越多地应用于文学翻译等创造性任务。然而,翻译的创造性仍然未被充分探索,并且很少进行大规模评估。同时,源文本理解通常被孤立地研究,尽管在专业翻译中,理解和创造力是紧密相连的。为了解决这些差距,我们提出了一个配对任务框架,应用于11本书的文学摘录。任务1评估源文本理解,任务2通过创造潜力单元(UCPs),如隐喻和文字游戏,评估翻译的创造性。通过结合专家人工标注和基于UCP的自动评分的可扩展评估设置,我们对23个模型和四个面向创造性的提示进行了基准测试。我们的研究结果表明,强大的理解力并不能转化为人类水平的创造力:模型经常产生字面或语境不适当的渲染,对于更远的英汉语言对来说,差距尤其大。面向创造性的提示只产生了适度的收益,只有一个模型Mistral-Large接近人类水平的创造力(0.167 vs. 0.246)。在所有模型-提示组合中,只有三个超过了0.1的创造力得分,其余的都保持在或接近于零。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在文学翻译中创造性能力评估不足的问题。现有方法通常孤立地研究源文本理解,忽略了理解和创造力在专业翻译中紧密相连的特性。此外,缺乏对翻译创造性(如隐喻、文字游戏等)的大规模评估。

核心思路:论文的核心思路是构建一个配对任务框架,将源文本理解和翻译创造性评估结合起来。通过评估LLM对源文本的理解程度,以及其在翻译中运用创造性元素的能力,从而更全面地评估LLM在文学翻译中的表现。这种配对评估方式更贴近专业翻译的实际流程。

技术框架:该框架包含两个主要任务: 1. 源文本理解评估:评估LLM对源文本的理解程度,例如通过问答或填空等方式。 2. 翻译创造性评估:通过创造潜力单元(UCPs)来评估翻译文本的创造性。UCPs包括隐喻、文字游戏等创造性元素。评估方法结合了专家人工标注和基于UCP的自动评分。

关键创新:该论文的关键创新在于提出了一个配对任务框架,将源文本理解和翻译创造性评估结合起来。这种框架更全面地评估了LLM在文学翻译中的能力,并提供了一种可扩展的评估方法,结合了人工标注和自动评分。此外,论文还定义了创造潜力单元(UCPs)的概念,用于量化翻译文本的创造性。

关键设计: * 数据集:使用了来自11本书的文学摘录。 * 评估指标:使用了基于UCP的自动评分和人工评估。 * 模型:测试了23个模型,包括各种规模的LLM。 * 提示:使用了四个面向创造性的提示,以探索提示工程对翻译创造性的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使具备较强的理解能力,LLM在文学翻译创造性方面仍与人类存在较大差距。Mistral-Large模型在创造性方面表现最佳,但其得分(0.167)仍远低于人类水平(0.246)。面向创造性的提示仅带来适度提升,大多数模型的创造性得分接近于零。这表明当前LLM在文学翻译的创造性方面仍有很大的提升空间。

🎯 应用场景

该研究成果可应用于评估和改进LLM在文学翻译领域的应用。通过配对任务框架,可以更准确地衡量LLM的翻译质量,并指导模型训练,提升其创造性翻译能力。此外,该框架也可用于评估其他创造性任务中LLM的表现,例如诗歌创作、剧本编写等,具有广泛的应用前景。

📄 摘要(原文)

Large language models (LLMs) are increasingly used for creative tasks such as literary translation. Yet translational creativity remains underexplored and is rarely evaluated at scale, while source-text comprehension is typically studied in isolation, despite the fact that, in professional translation, comprehension and creativity are tightly intertwined. We address these gaps with a paired-task framework applied to literary excerpts from 11 books. Task 1 assesses source-text comprehension, and Task 2 evaluates translational creativity through Units of Creative Potential (UCPs), such as metaphors and wordplay. Using a scalable evaluation setup that combines expert human annotations with UCP-based automatic scoring, we benchmark 23 models and four creativity-oriented prompts. Our findings show that strong comprehension does not translate into human-level creativity: models often produce literal or contextually inappropriate renderings, with particularly large gaps for the more distant English-Chinese language pair. Creativity-oriented prompts yield only modest gains, and only one model, Mistral-Large, comes close to human-level creativity (0.167 vs. 0.246). Across all model-prompt combinations, only three exceed a creativity score of 0.1, while the rest remain at or near zero.