The Paradox of Poetic Intent in Back-Translation: Evaluating the Quality of Large Language Models in Chinese Translation

作者: Li Weigang, Pedro Carvalho Brom

分类: cs.CL

发布日期: 2025-04-22 (更新: 2025-04-28)

备注: 24 pages, 3 figures

💡 一句话要点

提出BT-Fried评估体系，揭示大语言模型汉英翻译中诗意理解的悖论。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器翻译 大语言模型 汉英翻译 诗意理解 回译评估

📋 核心要点

现有大语言模型在汉英翻译中，难以准确捕捉诗歌意境和文化内涵，存在翻译质量瓶颈。
构建BT-Fried评估体系，通过回译和统计检验，量化评估LLM在不同类型文本上的翻译质量。
实验表明，LLM在科学文本翻译中表现良好，但在文化和文学文本翻译中存在明显不足。

📝 摘要（中文）

本研究探讨了大语言模型（LLMs）在机器翻译领域的快速发展，以及在汉英翻译中保留诗意、文化遗产和处理专业术语方面仍然存在的挑战。研究构建了一个包含中文科学术语、历史翻译悖论和文学隐喻的多样化语料库。利用基于回译和Friedman检验的评估系统（BT-Fried），评估了六个主要LLM（如GPT-4.5、DeepSeek V3）和三个传统翻译工具在BLEU、CHRF、TER和语义相似性指标上的表现。主要发现包括：（1）科学摘要通常受益于回译，而传统工具在语言差异显著的文本中优于LLM；（2）LLM在文化和文学保留方面表现不佳，体现了“诗意理解的悖论”；（3）一些模型表现出“逐字回译”，反映了涌现的记忆行为；（4）提出了一种使用Jieba分词和n-gram加权的新型BLEU变体。该研究有助于对中文NLP性能进行实证评估，并加深对人工智能介导翻译中文化保真度的理解。

🔬 方法详解

问题定义：论文旨在解决大语言模型在汉英翻译中，尤其是在处理包含丰富文化内涵和诗意表达的文本时，无法准确传达原文意境的问题。现有方法在评估翻译质量时，往往侧重于字面意义的匹配，忽略了文化背景和情感色彩的保留，导致翻译结果缺乏灵魂。

核心思路：论文的核心思路是通过构建一个包含不同类型文本（科学、历史、文学）的语料库，并利用回译方法来评估LLM的翻译质量。回译是指将LLM的翻译结果再翻译回原文语言，然后比较回译结果与原文的相似度。如果LLM能够准确理解原文的意境，那么回译结果应该与原文高度相似。

技术框架：论文提出的BT-Fried评估体系包含以下几个主要模块：1) 构建多样化语料库，包含科学术语、历史翻译悖论和文学隐喻等不同类型的文本。2) 使用多个LLM和传统翻译工具进行汉英翻译。3) 将翻译结果回译成中文。4) 使用BLEU、CHRF、TER和语义相似性等指标，比较回译结果与原文的相似度。5) 使用Friedman检验对不同模型和工具的性能进行统计分析。

关键创新：论文的关键创新在于：1) 提出了BT-Fried评估体系，该体系能够更全面地评估LLM在汉英翻译中的质量，尤其是在文化和文学文本的翻译方面。2) 发现了一些LLM存在“逐字回译”的现象，这表明这些模型可能存在记忆行为。3) 提出了一种使用Jieba分词和n-gram加权的新型BLEU变体，该变体更适合评估中文翻译质量。

关键设计：在BT-Fried评估体系中，关键设计包括：1) 语料库的多样性，确保能够覆盖不同类型的文本。2) 回译方法的应用，能够更直接地反映LLM对原文意境的理解程度。3) Friedman检验的使用，能够对不同模型和工具的性能进行统计分析，从而得出更可靠的结论。4) 新型BLEU变体中，Jieba分词的使用能够更准确地对中文文本进行分词，n-gram加权能够更好地考虑词语之间的关系。

🖼️ 关键图片

📊 实验亮点

实验结果表明，传统翻译工具在语言差异显著的文本中优于LLM，而LLM在文化和文学保留方面表现不佳，体现了“诗意理解的悖论”。部分模型出现“逐字回译”现象，反映了涌现的记忆行为。提出的新型BLEU变体在评估中文翻译质量方面表现更优。

🎯 应用场景

该研究成果可应用于改进机器翻译系统，尤其是在文化交流、文学翻译等领域，提升翻译质量和文化信息的准确传递。同时，BT-Fried评估体系可作为评估和优化LLM翻译能力的有效工具，推动人工智能在跨文化交流中的应用。

📄 摘要（原文）

The rapid advancement of large language models (LLMs) has reshaped the landscape of machine translation, yet challenges persist in preserving poetic intent, cultural heritage, and handling specialized terminology in Chinese-English translation. This study constructs a diverse corpus encompassing Chinese scientific terminology, historical translation paradoxes, and literary metaphors. Utilizing a back-translation and Friedman test-based evaluation system (BT-Fried), we evaluate BLEU, CHRF, TER, and semantic similarity metrics across six major LLMs (e.g., GPT-4.5, DeepSeek V3) and three traditional translation tools. Key findings include: (1) Scientific abstracts often benefit from back-translation, while traditional tools outperform LLMs in linguistically distinct texts; (2) LLMs struggle with cultural and literary retention, exemplifying the "paradox of poetic intent"; (3) Some models exhibit "verbatim back-translation", reflecting emergent memory behavior; (4) A novel BLEU variant using Jieba segmentation and n-gram weighting is proposed. The study contributes to the empirical evaluation of Chinese NLP performance and advances understanding of cultural fidelity in AI-mediated translation.

The Paradox of Poetic Intent in Back-Translation: Evaluating the Quality of Large Language Models in Chinese Translation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理