The Paradox of Poetic Intent in Back-Translation: Evaluating the Quality of Large Language Models in Chinese Translation
作者: Li Weigang, Pedro Carvalho Brom
分类: cs.CL
发布日期: 2025-04-22 (更新: 2025-04-28)
备注: 24 pages, 3 figures
💡 一句话要点
提出BT-Fried评估体系,揭示大语言模型汉英翻译中诗意理解的悖论。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器翻译 大语言模型 汉英翻译 诗意理解 回译评估
📋 核心要点
- 现有大语言模型在汉英翻译中,难以准确捕捉诗歌意境和文化内涵,存在翻译质量瓶颈。
- 构建BT-Fried评估体系,通过回译和统计检验,量化评估LLM在不同类型文本上的翻译质量。
- 实验表明,LLM在科学文本翻译中表现良好,但在文化和文学文本翻译中存在明显不足。
📝 摘要(中文)
本研究探讨了大语言模型(LLMs)在机器翻译领域的快速发展,以及在汉英翻译中保留诗意、文化遗产和处理专业术语方面仍然存在的挑战。研究构建了一个包含中文科学术语、历史翻译悖论和文学隐喻的多样化语料库。利用基于回译和Friedman检验的评估系统(BT-Fried),评估了六个主要LLM(如GPT-4.5、DeepSeek V3)和三个传统翻译工具在BLEU、CHRF、TER和语义相似性指标上的表现。主要发现包括:(1)科学摘要通常受益于回译,而传统工具在语言差异显著的文本中优于LLM;(2)LLM在文化和文学保留方面表现不佳,体现了“诗意理解的悖论”;(3)一些模型表现出“逐字回译”,反映了涌现的记忆行为;(4)提出了一种使用Jieba分词和n-gram加权的新型BLEU变体。该研究有助于对中文NLP性能进行实证评估,并加深对人工智能介导翻译中文化保真度的理解。
🔬 方法详解
问题定义:论文旨在解决大语言模型在汉英翻译中,尤其是在处理包含丰富文化内涵和诗意表达的文本时,无法准确传达原文意境的问题。现有方法在评估翻译质量时,往往侧重于字面意义的匹配,忽略了文化背景和情感色彩的保留,导致翻译结果缺乏灵魂。
核心思路:论文的核心思路是通过构建一个包含不同类型文本(科学、历史、文学)的语料库,并利用回译方法来评估LLM的翻译质量。回译是指将LLM的翻译结果再翻译回原文语言,然后比较回译结果与原文的相似度。如果LLM能够准确理解原文的意境,那么回译结果应该与原文高度相似。
技术框架:论文提出的BT-Fried评估体系包含以下几个主要模块:1) 构建多样化语料库,包含科学术语、历史翻译悖论和文学隐喻等不同类型的文本。2) 使用多个LLM和传统翻译工具进行汉英翻译。3) 将翻译结果回译成中文。4) 使用BLEU、CHRF、TER和语义相似性等指标,比较回译结果与原文的相似度。5) 使用Friedman检验对不同模型和工具的性能进行统计分析。
关键创新:论文的关键创新在于:1) 提出了BT-Fried评估体系,该体系能够更全面地评估LLM在汉英翻译中的质量,尤其是在文化和文学文本的翻译方面。2) 发现了一些LLM存在“逐字回译”的现象,这表明这些模型可能存在记忆行为。3) 提出了一种使用Jieba分词和n-gram加权的新型BLEU变体,该变体更适合评估中文翻译质量。
关键设计:在BT-Fried评估体系中,关键设计包括:1) 语料库的多样性,确保能够覆盖不同类型的文本。2) 回译方法的应用,能够更直接地反映LLM对原文意境的理解程度。3) Friedman检验的使用,能够对不同模型和工具的性能进行统计分析,从而得出更可靠的结论。4) 新型BLEU变体中,Jieba分词的使用能够更准确地对中文文本进行分词,n-gram加权能够更好地考虑词语之间的关系。
🖼️ 关键图片
📊 实验亮点
实验结果表明,传统翻译工具在语言差异显著的文本中优于LLM,而LLM在文化和文学保留方面表现不佳,体现了“诗意理解的悖论”。部分模型出现“逐字回译”现象,反映了涌现的记忆行为。提出的新型BLEU变体在评估中文翻译质量方面表现更优。
🎯 应用场景
该研究成果可应用于改进机器翻译系统,尤其是在文化交流、文学翻译等领域,提升翻译质量和文化信息的准确传递。同时,BT-Fried评估体系可作为评估和优化LLM翻译能力的有效工具,推动人工智能在跨文化交流中的应用。
📄 摘要(原文)
The rapid advancement of large language models (LLMs) has reshaped the landscape of machine translation, yet challenges persist in preserving poetic intent, cultural heritage, and handling specialized terminology in Chinese-English translation. This study constructs a diverse corpus encompassing Chinese scientific terminology, historical translation paradoxes, and literary metaphors. Utilizing a back-translation and Friedman test-based evaluation system (BT-Fried), we evaluate BLEU, CHRF, TER, and semantic similarity metrics across six major LLMs (e.g., GPT-4.5, DeepSeek V3) and three traditional translation tools. Key findings include: (1) Scientific abstracts often benefit from back-translation, while traditional tools outperform LLMs in linguistically distinct texts; (2) LLMs struggle with cultural and literary retention, exemplifying the "paradox of poetic intent"; (3) Some models exhibit "verbatim back-translation", reflecting emergent memory behavior; (4) A novel BLEU variant using Jieba segmentation and n-gram weighting is proposed. The study contributes to the empirical evaluation of Chinese NLP performance and advances understanding of cultural fidelity in AI-mediated translation.