GIIFT: Graph-guided Inductive Image-free Multimodal Machine Translation

📄 arXiv: 2507.18562v2 📥 PDF

作者: Jiafeng Xiong, Yuting Zhao

分类: cs.CL, cs.AI

发布日期: 2025-07-24 (更新: 2025-10-08)

备注: Accepted as an oral presentation at the EMNLP 2025 Workshop on Machine Translation (WMT)


💡 一句话要点

提出GIIFT框架,利用图结构引导的归纳式无图多模态机器翻译,显著提升翻译效果。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态机器翻译 场景图 图注意力网络 归纳学习 无图翻译

📋 核心要点

  1. 现有MMT方法在利用视觉信息时,过度依赖视觉-语言对齐,且泛化能力受限。
  2. GIIFT通过构建多模态场景图,并使用图注意力网络学习跨模态知识,实现更好的模态融合。
  3. 实验表明,GIIFT在无图推理场景下,超越现有方法,并在多个数据集上取得了显著提升。

📝 摘要(中文)

多模态机器翻译(MMT)已经证明了视觉信息在机器翻译中的显著帮助。然而,现有的MMT方法面临着利用模态差距的挑战,它们强制执行严格的视觉-语言对齐,同时又局限于其训练的多模态领域内的推理。在这项工作中,我们构建了新颖的多模态场景图来保存和整合模态特定的信息,并引入GIIFT,一个两阶段的图引导归纳式无图MMT框架,该框架使用跨模态图注意力网络适配器来学习统一融合空间中的多模态知识,并将其归纳地推广到更广泛的无图翻译领域。在Multi30K数据集上进行的英法和英德翻译任务的实验结果表明,我们的GIIFT超越了现有方法,并达到了最先进的水平,即使在推理过程中没有图像。在WMT基准测试上的结果显示,相对于无图翻译基线有显著的改进,证明了GIIFT在归纳式无图推理方面的优势。

🔬 方法详解

问题定义:现有的多模态机器翻译方法通常依赖于图像信息,并且在训练时需要图像和文本对齐。这限制了它们在没有图像的情况下进行推理的能力,也难以泛化到新的领域。此外,现有方法在处理视觉和语言模态之间的差距时,往往采用过于严格的对齐方式,忽略了模态自身的特性。

核心思路:GIIFT的核心思路是利用多模态场景图来显式地表示图像中的对象及其关系,从而更好地保存和整合模态特定的信息。通过图注意力网络,GIIFT能够学习跨模态的知识,并将这些知识迁移到无图翻译任务中。这种方法旨在弥合模态差距,并提高模型的泛化能力。

技术框架:GIIFT是一个两阶段的框架。第一阶段是构建多模态场景图,该图包含图像中的对象、属性和关系。第二阶段是使用一个跨模态图注意力网络适配器,将场景图的信息融入到翻译模型中。具体来说,该适配器学习一个统一的融合空间,将视觉和语言信息映射到该空间中,从而实现跨模态知识的共享和迁移。

关键创新:GIIFT的关键创新在于其图引导的归纳式学习方法。通过构建多模态场景图,GIIFT能够显式地表示图像中的信息,并利用图注意力网络学习跨模态知识。这种方法不仅能够提高翻译的准确性,还能够提高模型的泛化能力,使其能够在没有图像的情况下进行推理。此外,GIIFT的归纳式学习方法使其能够将学习到的知识迁移到新的领域,而无需重新训练。

关键设计:GIIFT的关键设计包括多模态场景图的构建方式和跨模态图注意力网络适配器的结构。场景图的构建需要选择合适的对象检测器和关系预测器。图注意力网络适配器需要设计合适的注意力机制和融合策略,以有效地融合视觉和语言信息。此外,GIIFT还采用了两阶段的训练策略,首先训练场景图构建模块,然后训练翻译模型和适配器。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GIIFT在Multi30K数据集上取得了state-of-the-art的结果,即使在推理过程中没有图像。在WMT基准测试上,GIIFT相对于无图翻译基线有显著的改进,证明了其在归纳式无图推理方面的优势。具体提升幅度未知,但摘要中明确指出是“significant improvements”。

🎯 应用场景

GIIFT框架具有广泛的应用前景,可应用于各种需要多模态信息融合的机器翻译场景,例如旅游、电商等。该研究的实际价值在于提升了机器翻译在无图情况下的性能,降低了对图像数据的依赖,使得机器翻译系统更加灵活和实用。未来,该研究可以进一步扩展到其他多模态任务,例如图像描述、视觉问答等。

📄 摘要(原文)

Multimodal Machine Translation (MMT) has demonstrated the significant help of visual information in machine translation. However, existing MMT methods face challenges in leveraging the modality gap by enforcing rigid visual-linguistic alignment whilst being confined to inference within their trained multimodal domains. In this work, we construct novel multimodal scene graphs to preserve and integrate modality-specific information and introduce GIIFT, a two-stage Graph-guided Inductive Image-Free MMT framework that uses a cross-modal Graph Attention Network adapter to learn multimodal knowledge in a unified fused space and inductively generalize it to broader image-free translation domains. Experimental results on the Multi30K dataset of English-to-French and English-to-German tasks demonstrate that our GIIFT surpasses existing approaches and achieves the state-of-the-art, even without images during inference. Results on the WMT benchmark show significant improvements over the image-free translation baselines, demonstrating the strength of GIIFT towards inductive image-free inference.