Discrete Multimodal Transformers with a Pretrained Large Language Model for Mixed-Supervision Speech Processing

📄 arXiv: 2406.06582v2 📥 PDF

作者: Viet Anh Trinh, Rosy Southwell, Yiwen Guan, Xinlu He, Zhiyong Wang, Jacob Whitehill

分类: cs.CL, cs.LG, eess.AS

发布日期: 2024-06-04 (更新: 2024-06-25)


💡 一句话要点

提出基于预训练LLM的离散多模态Transformer,用于混合监督语音处理

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 离散表示 预训练语言模型 语音处理 混合监督学习

📋 核心要点

  1. 现有模型难以在多模态任务中无缝衔接,且缺乏利用大规模文本语料库中丰富语言信息的能力。
  2. 提出一种decoder-only的离散多模态语言模型(DMLM),能够灵活应用于多种任务和模态。
  3. 实验表明,DMLM通过混合监督训练和预训练LLM初始化,在多个任务和数据集上均取得了显著提升。

📝 摘要(中文)

本文提出了一种decoder-only的离散多模态语言模型(DMLM),它可以灵活地应用于多种任务(ASR, T2S, S2TT等)和模态(文本、语音、视觉)。我们探索了离散多模态模型的几个关键方面,包括损失函数、权重初始化、混合训练监督和码本。结果表明,DMLM从监督和无监督训练的结合中获益匪浅,适用于多个任务和数据集。此外,对于ASR,从预训练的LLM初始化DMLM以及从Whisper激活导出的码本中获益。

🔬 方法详解

问题定义:现有语音处理模型在处理多模态任务时存在局限性,难以同时处理语音识别、文本转语音、语音翻译等任务。此外,如何有效利用大规模文本语料库中预训练的语言模型,提升语音处理任务的性能,也是一个挑战。

核心思路:本文的核心思路是利用离散语音tokenization技术,将语音信号转换为离散的表示,从而能够构建一个统一的多模态模型。同时,利用预训练的大型语言模型(LLM)初始化模型参数,从而将LLM中丰富的语言知识迁移到语音处理任务中。

技术框架:DMLM是一个decoder-only的Transformer模型,可以接收来自不同模态(文本、语音、视觉)的离散token作为输入,并生成相应模态的token作为输出。整个框架包含以下几个主要模块:1) 离散tokenization模块,将语音信号转换为离散token;2) Transformer decoder模块,用于建模不同模态token之间的关系;3) 损失函数模块,用于优化模型参数。

关键创新:本文的关键创新在于将离散语音tokenization技术与预训练LLM相结合,构建了一个统一的多模态模型。这种方法能够充分利用LLM中丰富的语言知识,并能够灵活地应用于多种语音处理任务。此外,本文还探索了混合监督训练策略,即同时使用监督数据和无监督数据来训练模型,从而进一步提升模型性能。

关键设计:在模型设计方面,本文探索了不同的损失函数,包括交叉熵损失和对比学习损失。在权重初始化方面,本文使用预训练LLM的权重来初始化Transformer decoder的权重。在混合监督训练方面,本文使用监督数据来训练模型的特定任务模块,并使用无监督数据来训练模型的共享模块。此外,本文还探索了不同的码本,包括基于聚类的码本和基于Whisper激活的码本。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,DMLM在多个任务和数据集上均取得了显著提升。例如,在ASR任务中,通过使用预训练LLM初始化模型参数,DMLM的性能得到了显著提升。此外,通过使用混合监督训练策略,DMLM的性能也得到了进一步提升。具体性能数据未知,但强调了多个任务和数据集上的显著提升。

🎯 应用场景

该研究成果可应用于语音助手、智能客服、机器翻译等领域。通过构建统一的多模态模型,可以实现更自然、更智能的人机交互。此外,该研究还可以促进跨模态信息融合技术的发展,为未来的多模态人工智能应用奠定基础。

📄 摘要(原文)

Recent work on discrete speech tokenization has paved the way for models that can seamlessly perform multiple tasks across modalities, e.g., speech recognition, text to speech, speech to speech translation. Moreover, large language models (LLMs) pretrained from vast text corpora contain rich linguistic information that can improve accuracy in a variety of tasks. In this paper, we present a decoder-only Discrete Multimodal Language Model (DMLM), which can be flexibly applied to multiple tasks (ASR, T2S, S2TT, etc.) and modalities (text, speech, vision). We explore several critical aspects of discrete multi-modal models, including the loss function, weight initialization, mixed training supervision, and codebook. Our results show that DMLM benefits significantly, across multiple tasks and datasets, from a combination of supervised and unsupervised training. Moreover, for ASR, it benefits from initializing DMLM from a pretrained LLM, and from a codebook derived from Whisper activations.