Beyond Reproduction: A Paired-Task Framework for Assessing LLM Comprehension and Creativity in Literary Translation

作者: Ran Zhang, Steffen Eger, Arda Tezcan, Wei Zhao, Simone Paolo Ponzetto, Lieve Macken

分类: cs.CL, cs.AI

发布日期: 2026-04-20

备注: Accepted to ACL 2026 Findings

💡 一句话要点

提出配对任务框架，评估LLM在文学翻译中的理解与创造力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文学翻译 大型语言模型 创造性评估 配对任务框架 创造潜力单元 源文本理解 机器翻译

📋 核心要点

现有研究缺乏对LLM文学翻译创造性的充分评估，且源文本理解与创造性翻译通常被割裂研究。
论文提出配对任务框架，分别评估LLM对源文本的理解能力和翻译文本的创造性，二者紧密结合。
实验表明，即使具备较强理解能力，LLM在文学翻译创造性方面仍与人类存在较大差距，提示工程效果有限。

📝 摘要（中文）

大型语言模型（LLMs）越来越多地应用于文学翻译等创造性任务。然而，翻译的创造性仍然未被充分探索，并且很少进行大规模评估。同时，源文本理解通常被孤立地研究，尽管在专业翻译中，理解和创造力是紧密相连的。为了解决这些差距，我们提出了一个配对任务框架，应用于11本书的文学摘录。任务1评估源文本理解，任务2通过创造潜力单元（UCPs），如隐喻和文字游戏，评估翻译的创造性。通过结合专家人工标注和基于UCP的自动评分的可扩展评估设置，我们对23个模型和四个面向创造性的提示进行了基准测试。我们的研究结果表明，强大的理解力并不能转化为人类水平的创造力：模型经常产生字面或语境不适当的渲染，对于更远的英汉语言对来说，差距尤其大。面向创造性的提示只产生了适度的收益，只有一个模型Mistral-Large接近人类水平的创造力（0.167 vs. 0.246）。在所有模型-提示组合中，只有三个超过了0.1的创造力得分，其余的都保持在或接近于零。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）在文学翻译中创造性能力评估不足的问题。现有方法通常孤立地研究源文本理解，忽略了理解和创造力在专业翻译中紧密相连的特性。此外，缺乏对翻译创造性（如隐喻、文字游戏等）的大规模评估。

核心思路：论文的核心思路是构建一个配对任务框架，将源文本理解和翻译创造性评估结合起来。通过评估LLM对源文本的理解程度，以及其在翻译中运用创造性元素的能力，从而更全面地评估LLM在文学翻译中的表现。这种配对评估方式更贴近专业翻译的实际流程。

技术框架：该框架包含两个主要任务： 1. 源文本理解评估：评估LLM对源文本的理解程度，例如通过问答或填空等方式。 2. 翻译创造性评估：通过创造潜力单元（UCPs）来评估翻译文本的创造性。UCPs包括隐喻、文字游戏等创造性元素。评估方法结合了专家人工标注和基于UCP的自动评分。

关键创新：该论文的关键创新在于提出了一个配对任务框架，将源文本理解和翻译创造性评估结合起来。这种框架更全面地评估了LLM在文学翻译中的能力，并提供了一种可扩展的评估方法，结合了人工标注和自动评分。此外，论文还定义了创造潜力单元（UCPs）的概念，用于量化翻译文本的创造性。

关键设计： * 数据集：使用了来自11本书的文学摘录。 * 评估指标：使用了基于UCP的自动评分和人工评估。 * 模型：测试了23个模型，包括各种规模的LLM。 * 提示：使用了四个面向创造性的提示，以探索提示工程对翻译创造性的影响。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使具备较强的理解能力，LLM在文学翻译创造性方面仍与人类存在较大差距。Mistral-Large模型在创造性方面表现最佳，但其得分（0.167）仍远低于人类水平（0.246）。面向创造性的提示仅带来适度提升，大多数模型的创造性得分接近于零。这表明当前LLM在文学翻译的创造性方面仍有很大的提升空间。

🎯 应用场景

该研究成果可应用于评估和改进LLM在文学翻译领域的应用。通过配对任务框架，可以更准确地衡量LLM的翻译质量，并指导模型训练，提升其创造性翻译能力。此外，该框架也可用于评估其他创造性任务中LLM的表现，例如诗歌创作、剧本编写等，具有广泛的应用前景。

📄 摘要（原文）

Large language models (LLMs) are increasingly used for creative tasks such as literary translation. Yet translational creativity remains underexplored and is rarely evaluated at scale, while source-text comprehension is typically studied in isolation, despite the fact that, in professional translation, comprehension and creativity are tightly intertwined. We address these gaps with a paired-task framework applied to literary excerpts from 11 books. Task 1 assesses source-text comprehension, and Task 2 evaluates translational creativity through Units of Creative Potential (UCPs), such as metaphors and wordplay. Using a scalable evaluation setup that combines expert human annotations with UCP-based automatic scoring, we benchmark 23 models and four creativity-oriented prompts. Our findings show that strong comprehension does not translate into human-level creativity: models often produce literal or contextually inappropriate renderings, with particularly large gaps for the more distant English-Chinese language pair. Creativity-oriented prompts yield only modest gains, and only one model, Mistral-Large, comes close to human-level creativity (0.167 vs. 0.246). Across all model-prompt combinations, only three exceed a creativity score of 0.1, while the rest remain at or near zero.

Beyond Reproduction: A Paired-Task Framework for Assessing LLM Comprehension and Creativity in Literary Translation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理