Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion

作者: Yexing Du, Youcheng Pan, Zekun Wang, Zheng Chu, Yichong Huang, Kaiyuan Liu, Bo Yang, Yang Xiang, Ming Liu, Bing Qin

分类: cs.CL

发布日期: 2026-02-25

备注: Accepted in ICLR 2026

🔗 代码/项目: GITHUB

💡 一句话要点

提出基于语音-文本融合的可扩展多语言多模态机器翻译框架，显著提升翻译质量。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态机器翻译 语音翻译 大型语言模型 自进化学习 语音-文本融合 低资源翻译 多语言翻译

📋 核心要点

现有图像引导的多模态翻译方法受限于多语言图像-文本数据的稀缺性，限制了其应用范围。
提出一种语音引导的机器翻译框架，融合语音和文本信息，并利用自进化机制提升模型性能，降低对低资源数据的依赖。
实验表明，该框架在多模态和通用机器翻译基准上均取得了领先成果，且合成语音与真实语音差异对翻译影响甚微。

📝 摘要（中文）

多模态大型语言模型(MLLM)通过整合多模态信息，在提升翻译性能方面取得了显著成功。然而，现有研究主要集中在图像引导的方法上，其适用性受到多语言图像-文本对稀缺性的限制。语音模态克服了这一限制，因为它与文本自然对齐，并且存在大量的语音数据集，从而实现了可扩展的语言覆盖。本文提出了一种语音引导的机器翻译(SMT)框架，该框架将语音和文本作为融合输入集成到MLLM中，以提高翻译质量。为了减轻对低资源数据的依赖，我们引入了一种自进化机制。该框架的核心组件包括一个文本到语音模型，负责生成合成语音，以及一个MLLM，能够对合成语音样本进行分类，并使用正样本迭代地优化自身。实验结果表明，我们的框架在Multi30K多模态机器翻译基准测试中超过了所有现有方法，取得了新的最先进的结果。此外，在通用机器翻译数据集上，特别是FLORES-200，它在108个翻译方向上实现了平均最先进的性能。在CoVoST-2上的消融研究证实，合成语音和真实语音之间的差异对翻译质量的影响可以忽略不计。代码和模型已发布在https://github.com/yxduir/LLM-SRT。

🔬 方法详解

问题定义：论文旨在解决多语言多模态机器翻译中，图像模态数据稀缺导致翻译性能受限的问题。现有方法过度依赖图像-文本对，难以扩展到更多语言和场景，尤其是在低资源语言环境下表现不佳。

核心思路：论文的核心思路是利用语音模态作为辅助信息，因为语音数据更容易获取，且与文本具有天然的对齐关系。通过将语音和文本融合输入到大型语言模型中，可以提升翻译的准确性和鲁棒性。此外，引入自进化机制，利用合成语音数据进行模型迭代优化，从而降低对真实语音数据的依赖。

技术框架：整体框架包含以下几个主要模块：1) 文本到语音(TTS)模型：用于生成合成语音数据，扩展训练数据规模。2) 多模态大型语言模型(MLLM)：作为翻译模型的核心，接收融合的语音和文本输入，并生成目标语言文本。3) 自进化机制：利用MLLM对合成语音样本进行分类，筛选出高质量的正样本，用于迭代优化MLLM。整体流程是：首先利用TTS生成合成语音，然后将合成语音和源语言文本输入MLLM进行翻译，同时利用MLLM对合成语音进行分类，选择高质量的合成语音样本，用于进一步训练MLLM。

关键创新：最重要的技术创新点在于将语音模态引入多模态机器翻译，并设计了自进化机制。与现有方法相比，该方法不再依赖图像数据，而是利用更容易获取的语音数据，从而实现了更好的可扩展性。自进化机制则进一步降低了对真实语音数据的依赖，提高了模型的泛化能力。

关键设计：论文中关键的设计包括：1) 如何有效地融合语音和文本信息，可能涉及到特定的融合层或注意力机制。2) 自进化机制中，如何定义和选择高质量的合成语音样本，可能涉及到置信度阈值或其他指标。3) TTS模型的选择和训练，以及如何保证合成语音的质量。具体的损失函数、网络结构等细节需要在论文中进一步查找。

🖼️ 关键图片

📊 实验亮点

该框架在Multi30K多模态机器翻译基准上超越了所有现有方法，取得了新的SOTA结果。在通用机器翻译数据集FLORES-200上，该框架在108个翻译方向上实现了平均SOTA性能。CoVoST-2上的消融实验表明，合成语音和真实语音之间的差异对翻译质量的影响可以忽略不计，验证了自进化机制的有效性。

🎯 应用场景

该研究成果可应用于多语言语音翻译、跨文化交流、智能客服等领域。通过融合语音和文本信息，可以提升机器翻译的准确性和自然度，尤其是在低资源语言和口语翻译场景下具有重要价值。未来，该技术有望应用于实时翻译、语音助手等产品中，促进全球范围内的信息交流。

📄 摘要（原文）

Multimodal Large Language Models (MLLMs) have achieved notable success in enhancing translation performance by integrating multimodal information. However, existing research primarily focuses on image-guided methods, whose applicability is constrained by the scarcity of multilingual image-text pairs. The speech modality overcomes this limitation due to its natural alignment with text and the abundance of existing speech datasets, which enable scalable language coverage. In this paper, we propose a Speech-guided Machine Translation (SMT) framework that integrates speech and text as fused inputs into an MLLM to improve translation quality. To mitigate reliance on low-resource data, we introduce a Self-Evolution Mechanism. The core components of this framework include a text-to-speech model, responsible for generating synthetic speech, and an MLLM capable of classifying synthetic speech samples and iteratively optimizing itself using positive samples. Experimental results demonstrate that our framework surpasses all existing methods on the Multi30K multimodal machine translation benchmark, achieving new state-of-the-art results. Furthermore, on general machine translation datasets, particularly the FLORES-200, it achieves average state-of-the-art performance in 108 translation directions. Ablation studies on CoVoST-2 confirms that differences between synthetic and authentic speech have negligible impact on translation quality. The code and models are released at https://github.com/yxduir/LLM-SRT.

Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理