MAS-LitEval : Multi-Agent System for Literary Translation Quality Assessment

📄 arXiv: 2506.14199v1 📥 PDF

作者: Junghwan Kim, Kieun Park, Sohee Park, Hyunggug Kim, Bongwon Suh

分类: cs.CL

发布日期: 2025-06-17

备注: 4 Pages, 2 tables, EMNLP submitted


💡 一句话要点

提出MAS-LitEval以解决文学翻译质量评估问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 翻译质量评估 大型语言模型 多代理系统 文学翻译 文化细微差别 风格一致性

📋 核心要点

  1. 现有的翻译质量评估方法如BLEU和METEOR无法有效捕捉文学作品中的文化和风格元素,导致评估结果不准确。
  2. MAS-LitEval通过多代理系统结合大型语言模型,从术语、叙事和风格等多个维度对翻译进行综合评估,提供更全面的质量评估。
  3. 实验结果显示,MAS-LitEval在文学翻译质量评估中显著优于传统指标,最高得分达到0.890,展示了其有效性和实用性。

📝 摘要(中文)

文学翻译需要保留文化细微差别和风格元素,而传统的评估指标如BLEU和METEOR由于侧重于词汇重叠,无法有效评估这些方面。为了解决这一问题,本文提出了MAS-LitEval,一个基于大型语言模型的多代理系统,用于从术语、叙事和风格等方面评估翻译质量。通过对《小王子》和《康涅狄格州的亚瑟王的骑士》的翻译进行测试,MAS-LitEval在捕捉文学细微差别方面表现优于传统指标,最高得分达到0.890。这项工作为翻译质量评估提供了一个可扩展且细致的框架,为翻译者和研究人员提供了实用工具。

🔬 方法详解

问题定义:论文要解决的问题是现有翻译质量评估方法无法有效评估文学翻译中的文化细微差别和风格元素,导致评估结果的局限性。

核心思路:MAS-LitEval的核心思路是利用大型语言模型,通过多代理系统从多个维度(如术语、叙事和风格)对翻译进行综合评估,以更好地捕捉文学作品的特征。

技术框架:MAS-LitEval的整体架构包括多个代理,每个代理负责不同的评估维度,最终通过综合各代理的评估结果来得出翻译质量评分。

关键创新:该系统的最大创新在于引入了多代理机制和大型语言模型的结合,使得评估不仅限于词汇重叠,而是关注翻译的整体文学性和风格一致性。

关键设计:在设计上,MAS-LitEval采用了特定的损失函数来优化评估结果,并通过调整代理的参数设置来提高评估的准确性和可靠性。具体的网络结构和参数设置在论文中进行了详细描述。

📊 实验亮点

在实验中,MAS-LitEval在评估文学翻译的细微差别方面表现优异,最高得分达到0.890,显著高于传统的BLEU和METEOR指标,展示了其在捕捉文学特征方面的有效性。

🎯 应用场景

MAS-LitEval可广泛应用于文学翻译领域,帮助翻译者和研究人员更准确地评估翻译质量,尤其是在需要保留文化和风格元素的作品中。此外,该系统的可扩展性使其在其他类型的文本翻译质量评估中也具有潜在应用价值。

📄 摘要(原文)

Literary translation requires preserving cultural nuances and stylistic elements, which traditional metrics like BLEU and METEOR fail to assess due to their focus on lexical overlap. This oversight neglects the narrative consistency and stylistic fidelity that are crucial for literary works. To address this, we propose MAS-LitEval, a multi-agent system using Large Language Models (LLMs) to evaluate translations based on terminology, narrative, and style. We tested MAS-LitEval on translations of The Little Prince and A Connecticut Yankee in King Arthur's Court, generated by various LLMs, and compared it to traditional metrics. \textbf{MAS-LitEval} outperformed these metrics, with top models scoring up to 0.890 in capturing literary nuances. This work introduces a scalable, nuanced framework for Translation Quality Assessment (TQA), offering a practical tool for translators and researchers.