Context-Informed Machine Translation of Manga using Multimodal Large Language Models
作者: Philip Lippmann, Konrad Skublicki, Joshua Tanner, Shonosuke Ishiwatari, Jie Yang
分类: cs.CL
发布日期: 2024-11-04 (更新: 2024-12-05)
备注: COLING 2025
💡 一句话要点
提出基于多模态大语言模型的漫画机器翻译方法,提升翻译质量并构建新数据集。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 漫画翻译 机器翻译 多模态学习 大语言模型 视觉上下文
📋 核心要点
- 手工翻译成本高昂限制了漫画的国际传播,自动漫画翻译面临视觉信息融入和歧义消除的挑战。
- 利用多模态大语言模型的视觉能力,结合上下文信息,优化翻译单元大小和token效率,提升翻译质量。
- 构建了首个日语-波兰语平行漫画翻译数据集,并开源软件工具,实验表明该方法在日-英翻译上达到SOTA,并为日-波翻译设立新标准。
📝 摘要(中文)
由于手工翻译耗时费力,大多数漫画作品未能走出日本市场。自动漫画翻译是一个有前景的潜在解决方案。然而,这是一个新兴且欠发达的领域,由于需要有效地将视觉元素融入翻译过程以消除歧义,因此其复杂性甚至高于标准翻译。本文研究了多模态大语言模型(LLM)在多大程度上可以提供有效的漫画翻译,从而帮助漫画作者和出版商接触更广泛的受众。具体而言,我们提出了一种利用多模态LLM的视觉组件来提高翻译质量的方法,并评估了翻译单元大小、上下文长度的影响,并提出了一种token高效的漫画翻译方法。此外,我们引入了一个新的评估数据集——第一个日语-波兰语平行漫画翻译数据集——作为未来研究的基准。最后,我们贡献了一个开源软件套件,使其他人能够对LLM进行漫画翻译的基准测试。我们的研究结果表明,我们提出的方法在日语-英语翻译方面取得了最先进的结果,并为日语-波兰语翻译设定了新的标准。
🔬 方法详解
问题定义:漫画机器翻译需要有效融合视觉信息以解决文本歧义,现有方法难以充分利用图像上下文,导致翻译质量受限。此外,缺乏高质量的平行语料库也阻碍了模型的训练和评估。
核心思路:利用多模态大语言模型(MLLM)的视觉理解能力,将漫画图像作为翻译的上下文信息,辅助模型进行更准确的翻译。通过调整翻译单元大小和上下文长度,优化翻译效果。同时,设计token高效的方法,降低计算成本。
技术框架:该方法的核心是利用MLLM进行漫画翻译。输入包括漫画图像和待翻译的文本片段。MLLM利用其视觉编码器提取图像特征,并将其与文本信息融合,生成翻译结果。该框架包含数据预处理、模型训练和评估三个主要阶段。数据预处理阶段包括图像处理、文本分割和对齐等步骤。模型训练阶段使用平行语料库对MLLM进行微调。评估阶段使用自动评估指标和人工评估对翻译质量进行评估。
关键创新:该研究的关键创新在于将多模态大语言模型应用于漫画翻译,并提出了一种利用视觉上下文信息提高翻译质量的方法。此外,该研究还构建了一个新的日语-波兰语平行漫画翻译数据集,为未来的研究提供了基准。
关键设计:论文的关键设计包括:1) 使用预训练的多模态大语言模型,例如BLIP-2或Flamingo,以利用其强大的视觉和语言理解能力;2) 设计合适的输入格式,将漫画图像和文本信息有效地传递给MLLM;3) 探索不同的翻译单元大小和上下文长度,以优化翻译效果;4) 采用token高效的方法,例如量化或知识蒸馏,以降低计算成本。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在日语-英语漫画翻译上取得了最先进的结果(SOTA),并在新构建的日语-波兰语数据集上设立了新的性能标准。通过有效利用视觉上下文信息,翻译质量得到了显著提升,证明了多模态大语言模型在漫画翻译领域的潜力。
🎯 应用场景
该研究成果可应用于漫画的自动翻译,降低翻译成本,加速漫画的国际传播,使更多读者能够欣赏到来自世界各地的漫画作品。此外,该技术也可扩展到其他图文结合的文档翻译,例如绘本、宣传册等。
📄 摘要(原文)
Due to the significant time and effort required for handcrafting translations, most manga never leave the domestic Japanese market. Automatic manga translation is a promising potential solution. However, it is a budding and underdeveloped field and presents complexities even greater than those found in standard translation due to the need to effectively incorporate visual elements into the translation process to resolve ambiguities. In this work, we investigate to what extent multimodal large language models (LLMs) can provide effective manga translation, thereby assisting manga authors and publishers in reaching wider audiences. Specifically, we propose a methodology that leverages the vision component of multimodal LLMs to improve translation quality and evaluate the impact of translation unit size, context length, and propose a token efficient approach for manga translation. Moreover, we introduce a new evaluation dataset -- the first parallel Japanese-Polish manga translation dataset -- as part of a benchmark to be used in future research. Finally, we contribute an open-source software suite, enabling others to benchmark LLMs for manga translation. Our findings demonstrate that our proposed methods achieve state-of-the-art results for Japanese-English translation and set a new standard for Japanese-Polish.