EMMeTT: Efficient Multimodal Machine Translation Training
作者: Piotr Żelasko, Zhehuai Chen, Mengru Wang, Daniel Galvez, Oleksii Hrinchuk, Shuoyang Ding, Ke Hu, Jagadeesh Balam, Vitaly Lavrukhin, Boris Ginsburg
分类: cs.CL, cs.SD, eess.AS
发布日期: 2024-09-20
备注: 4 pages, submitted to ICASSP 2025
💡 一句话要点
EMMeTT:高效的多模态机器翻译训练框架,提升语音和文本翻译性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态机器翻译 语音翻译 神经机器翻译 训练效率优化 数据平衡
📋 核心要点
- 现有神经机器翻译模型在处理多模态数据,特别是语音和文本联合翻译时,效率和性能存在挑战。
- EMMeTT框架通过平衡采样、高效数据迭代和2D分桶等策略,优化多模态数据的联合训练过程。
- 实验表明,EMMeTT框架在提升自动语音翻译性能的同时,保留了神经机器翻译的原始能力。
📝 摘要(中文)
随着对基础语言模型模态扩展的兴趣日益增长,对最有效和高效的多模态训练方法进行讨论变得至关重要。本文着重于神经机器翻译(NMT),并提出了一种联合多模态训练方案,将语音-LLM模型用于自动语音翻译(AST)。我们研究了两种不同的基础模型架构,即仅解码器的GPT和编码器-解码器的T5,并扩展了Canary-1B的语音编码器。为了处理联合多模态训练,我们提出了一种名为EMMeTT的新型训练框架。EMMeTT通过以下方式提高训练效率:跨语言、数据集和模态的平衡采样;高效的顺序数据迭代;以及一种新颖的用于多模态数据的2D分桶方案,并辅以批量大小优化器(OOMptimizer)。我们表明,多模态训练始终有助于这两种架构。此外,使用EMMeTT训练的SALM-T5保留了原始的NMT能力,同时在FLORES和FLEURS的四种语言子集上优于AST基线。由此产生的多模态翻译模型同时产生了强大的文本和语音翻译结果。
🔬 方法详解
问题定义:现有的多模态机器翻译方法在联合训练语音和文本数据时,面临着数据不平衡、训练效率低下的问题。特别是,如何有效地利用预训练的语言模型(如GPT和T5)进行多模态扩展,并同时保持其原有的翻译能力,是一个重要的挑战。
核心思路:EMMeTT的核心思路是通过优化数据采样和批处理策略,提高多模态训练的效率和效果。它旨在解决数据不平衡问题,并充分利用预训练语言模型的知识,从而在语音和文本翻译任务上都取得良好的性能。
技术框架:EMMeTT框架主要包含以下几个模块:1) 数据预处理模块,负责对语音和文本数据进行清洗和格式化;2) 平衡采样模块,用于跨语言、数据集和模态进行平衡采样,确保训练数据的多样性和代表性;3) 高效数据迭代模块,采用顺序数据迭代的方式,避免重复加载数据,提高训练速度;4) 2D分桶模块,根据语音和文本数据的长度,将数据分到不同的桶中,减少填充,提高计算效率;5) 批量大小优化器(OOMptimizer),动态调整批量大小,避免内存溢出。
关键创新:EMMeTT的关键创新在于其针对多模态数据的训练效率优化策略,包括平衡采样、高效数据迭代和2D分桶。这些策略能够有效地解决数据不平衡和训练效率低下的问题,从而提高多模态机器翻译模型的性能。此外,OOMptimizer 也是一个创新点,它允许在内存限制下使用更大的批量大小,从而加速训练过程。
关键设计:在平衡采样方面,EMMeTT会根据不同语言、数据集和模态的样本数量,调整采样概率,确保每个类别的数据都被充分利用。在2D分桶方面,EMMeTT会根据语音和文本数据的长度,将数据分到不同的桶中,并尽量保证每个桶中的数据长度相近,从而减少填充。OOMptimizer 通过监控训练过程中的内存使用情况,动态调整批量大小,以充分利用可用的内存资源。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用EMMeTT训练的SALM-T5模型在保留原始NMT能力的同时,在FLORES和FLEURS的四种语言子集上优于AST基线。这表明EMMeTT框架能够有效地提升多模态机器翻译模型的性能,使其在文本和语音翻译任务上都表现出色。
🎯 应用场景
EMMeTT框架可应用于各种多模态机器翻译场景,例如实时语音翻译、视频字幕生成、跨语言语音助手等。该研究有助于提升多语言环境下的信息交流效率,促进不同语言和文化之间的沟通与理解,具有重要的社会和经济价值。
📄 摘要(原文)
A rising interest in the modality extension of foundation language models warrants discussion on the most effective, and efficient, multimodal training approach. This work focuses on neural machine translation (NMT) and proposes a joint multimodal training regime of Speech-LLM to include automatic speech translation (AST). We investigate two different foundation model architectures, decoder-only GPT and encoder-decoder T5, extended with Canary-1B's speech encoder. To handle joint multimodal training, we propose a novel training framework called EMMeTT. EMMeTT improves training efficiency with the following: balanced sampling across languages, datasets, and modalities; efficient sequential data iteration; and a novel 2D bucketing scheme for multimodal data, complemented by a batch size optimizer (OOMptimizer). We show that a multimodal training consistently helps with both architectures. Moreover, SALM-T5 trained with EMMeTT retains the original NMT capability while outperforming AST baselines on four-language subsets of FLORES and FLEURS. The resultant Multimodal Translation Model produces strong text and speech translation results at the same time.