Towards Zero-Shot Multimodal Machine Translation

📄 arXiv: 2407.13579v2 📥 PDF

作者: Matthieu Futeral, Cordelia Schmid, Benoît Sagot, Rachel Bawden

分类: cs.CL

发布日期: 2024-07-18 (更新: 2025-03-11)

备注: NAACL 2025 (Findings)


💡 一句话要点

提出ZeroMMT,利用多模态英语数据实现零样本多模态机器翻译。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态机器翻译 零样本学习 视觉条件语言建模 迁移学习 低资源语言 机器翻译 图像文本融合

📋 核心要点

  1. 现有MMT系统依赖大量标注数据,限制了其在低资源语言上的应用。
  2. ZeroMMT利用多模态英语数据,通过视觉条件掩码语言建模和KL散度优化文本翻译模型。
  3. 实验表明,ZeroMMT在消歧任务上接近SOTA,并成功扩展到阿拉伯语、俄语和中文。

📝 摘要(中文)

当前的多模态机器翻译(MMT)系统依赖于完全监督的数据,即模型在带有翻译和相关图像的句子上进行训练。然而,这种类型的数据收集成本高昂,限制了MMT扩展到其他缺乏此类数据的语言对。本文提出了一种方法,通过仅使用多模态英语数据来绕过训练MMT系统对完全监督数据的需求。我们的方法称为ZeroMMT,包括通过在两个目标的混合上训练一个强大的纯文本机器翻译(MT)模型来调整它:视觉条件掩码语言建模以及原始MMT输出和新MMT输出之间的Kullback-Leibler散度。我们在标准MMT基准和最近发布的CoMMuTE(一个旨在评估模型如何利用图像来消除英语句子歧义的对比基准)上进行了评估。我们获得了接近最先进的MMT模型的消歧性能,这些模型还接受了完全监督的示例训练。为了证明我们的方法可以推广到没有完全监督训练数据的语言,我们将CoMMuTE评估数据集扩展到三种新语言:阿拉伯语、俄语和中文。我们进一步表明,我们可以使用无分类器引导在推理时控制消歧能力和翻译保真度之间的权衡,而无需任何额外的数据。我们的代码、数据和训练模型是公开可用的。

🔬 方法详解

问题定义:论文旨在解决多模态机器翻译中对大量平行语料库的依赖问题。现有方法需要图像、源语言文本和目标语言文本三者对齐的数据,这在许多语言对上难以获得,限制了多模态机器翻译的应用范围。

核心思路:核心思想是利用已有的多模态英语数据,通过迁移学习的方式,训练一个不需要平行语料库的多模态机器翻译模型。具体来说,就是先训练一个强大的文本翻译模型,然后利用视觉信息对该模型进行微调,使其具备利用图像消除歧义的能力。

技术框架:ZeroMMT方法主要包含以下几个阶段:1) 使用大规模文本数据训练一个强大的文本机器翻译模型;2) 利用多模态英语数据,通过视觉条件掩码语言建模(Visually Conditioned Masked Language Modelling)来学习图像和文本之间的关联;3) 使用Kullback-Leibler (KL) 散度,使视觉增强后的模型输出尽可能接近原始文本翻译模型的输出,以保持翻译的流畅性和准确性。

关键创新:该方法最大的创新在于实现了零样本多模态机器翻译,即不需要目标语言的平行语料库,仅利用多模态英语数据即可训练出多模态翻译模型。这极大地降低了多模态机器翻译的成本,使其可以应用于更多语言对。

关键设计:在训练过程中,使用了视觉条件掩码语言建模,即随机mask掉输入文本中的一些词,然后让模型根据图像和剩余的文本来预测被mask掉的词。此外,使用KL散度来约束视觉增强后的模型输出,使其尽可能接近原始文本翻译模型的输出。在推理阶段,可以使用classifier-free guidance来控制消歧能力和翻译保真度之间的权衡。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ZeroMMT在CoMMuTE基准测试中取得了接近SOTA的消歧性能,证明了其有效性。更重要的是,该方法成功扩展到阿拉伯语、俄语和中文等没有平行语料库的语言上,验证了其零样本迁移能力。此外,通过classifier-free guidance,可以在推理时灵活控制消歧能力和翻译质量的平衡。

🎯 应用场景

该研究成果可应用于低资源语言的机器翻译、跨文化交流、多模态信息检索等领域。例如,在旅游场景中,用户可以通过上传图片,将包含歧义的语句翻译成目标语言,从而更准确地表达自己的意思。未来,该技术有望促进不同语言和文化之间的交流与理解。

📄 摘要(原文)

Current multimodal machine translation (MMT) systems rely on fully supervised data (i.e models are trained on sentences with their translations and accompanying images). However, this type of data is costly to collect, limiting the extension of MMT to other language pairs for which such data does not exist. In this work, we propose a method to bypass the need for fully supervised data to train MMT systems, using multimodal English data only. Our method, called ZeroMMT, consists in adapting a strong text-only machine translation (MT) model by training it on a mixture of two objectives: visually conditioned masked language modelling and the Kullback-Leibler divergence between the original and new MMT outputs. We evaluate on standard MMT benchmarks and the recently released CoMMuTE, a contrastive benchmark aiming to evaluate how well models use images to disambiguate English sentences. We obtain disambiguation performance close to state-of-the-art MMT models trained additionally on fully supervised examples. To prove that our method generalizes to languages with no fully supervised training data available, we extend the CoMMuTE evaluation dataset to three new languages: Arabic, Russian and Chinese. We further show that we can control the trade-off between disambiguation capabilities and translation fidelity at inference time using classifier-free guidance and without any additional data. Our code, data and trained models are publicly accessible.