Get Large Language Models Ready to Speak: A Late-fusion Approach for Speech Generation

📄 arXiv: 2410.20336v1 📥 PDF

作者: Maohao Shen, Shun Zhang, Jilong Wu, Zhiping Xiu, Ehab AlBadawy, Yiting Lu, Mike Seltzer, Qing He

分类: cs.CL, cs.AI, cs.SD, eess.AS

发布日期: 2024-10-27


💡 一句话要点

提出基于Llama的TTS-Llama和MoLE-Llama,用于文本到语音生成及多模态问答。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本到语音 多模态学习 大型语言模型 参数高效微调 后期融合 混合专家 语音合成

📋 核心要点

  1. 现有大型语言模型在文本任务表现出色,但在语音生成方面的应用仍有待深入研究。
  2. 论文提出TTS-Llama和MoLE-Llama,利用Llama模型进行微调,实现文本到语音的转换和多模态融合。
  3. 实验结果表明,MoLE-Llama在文本问答和语音合成任务中表现出色,有效缓解了灾难性遗忘问题。

📝 摘要(中文)

大型语言模型(LLMs)在各种基于文本的任务中表现出令人印象深刻的性能,彻底改变了自然语言处理(NLP)领域。然而,将以文本为主的LLM扩展到语音生成任务仍有待探索。本文介绍了一种由微调的Llama模型驱动的文本到语音(TTS)系统,名为TTS-Llama,它实现了最先进的语音合成性能。在TTS-Llama的基础上,我们进一步提出了MoLE-Llama,这是一种通过纯粹的后期融合参数高效微调(PEFT)和混合专家架构开发的多模态LLM。大量的实验结果表明,MoLE-Llama在纯文本问答(QA)和TTS任务中都具有竞争力的性能,缓解了任一模态中的灾难性遗忘问题。最后,我们进一步探索了MoLE-Llama在文本输入语音输出的问答任务中的应用,展示了其作为能够进行语音生成的多模态对话系统的巨大潜力。

🔬 方法详解

问题定义:现有的大型语言模型主要集中在文本处理任务上,缺乏在语音生成方面的有效应用。将LLM扩展到语音领域面临着如何有效融合文本和语音信息,以及如何避免在多模态任务中出现灾难性遗忘的问题。

核心思路:论文的核心思路是利用预训练的Llama模型,通过参数高效的微调方法(PEFT)和后期融合策略,构建一个既能处理文本又能生成语音的多模态LLM。这种方法旨在充分利用LLM的文本理解能力,并将其扩展到语音领域,同时避免从头开始训练大型模型的巨大计算成本。

技术框架:整体框架包含两个主要部分:TTS-Llama和MoLE-Llama。TTS-Llama是一个基于Llama模型微调的文本到语音系统,用于生成高质量的语音。MoLE-Llama则是在TTS-Llama的基础上,通过后期融合和混合专家架构构建的多模态LLM,能够同时处理文本和语音输入,并进行问答等任务。框架流程包括:文本输入 -> TTS-Llama (文本到语音) -> 特征提取 -> 后期融合 -> MoLE-Llama (多模态处理) -> 输出 (文本或语音)。

关键创新:论文的关键创新在于:1) 提出了一种基于Llama模型的文本到语音系统TTS-Llama,并实现了最先进的语音合成性能。2) 提出了一种基于后期融合和混合专家架构的多模态LLM MoLE-Llama,能够有效处理文本和语音信息,并缓解了灾难性遗忘问题。3) 探索了MoLE-Llama在文本输入语音输出的问答任务中的应用,展示了其作为多模态对话系统的潜力。与现有方法的本质区别在于,该方法充分利用了预训练LLM的知识,并通过参数高效的微调方法实现了多模态融合。

关键设计:MoLE-Llama的关键设计包括:1) 使用LoRA等参数高效微调方法,减少了训练所需的计算资源。2) 采用后期融合策略,将文本和语音特征在模型的后期进行融合,避免了早期融合可能导致的信息损失。3) 使用混合专家架构,允许模型根据不同的输入选择不同的专家模块进行处理,提高了模型的灵活性和性能。具体的损失函数和网络结构细节在论文中进行了详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,TTS-Llama实现了最先进的语音合成性能。MoLE-Llama在文本问答和语音合成任务中都表现出具有竞争力的性能,并且有效缓解了多模态任务中的灾难性遗忘问题。在文本输入语音输出的问答任务中,MoLE-Llama也展示了其作为多模态对话系统的巨大潜力。(具体性能数据未知)

🎯 应用场景

该研究成果可应用于智能对话系统、语音助手、无障碍阅读等领域。通过结合文本理解和语音生成能力,可以构建更加自然和智能的人机交互界面,为用户提供更加便捷和个性化的服务。未来,该技术有望在教育、娱乐、医疗等领域发挥重要作用。

📄 摘要(原文)

Large language models (LLMs) have revolutionized natural language processing (NLP) with impressive performance across various text-based tasks. However, the extension of text-dominant LLMs to with speech generation tasks remains under-explored. In this work, we introduce a text-to-speech (TTS) system powered by a fine-tuned Llama model, named TTS-Llama, that achieves state-of-the-art speech synthesis performance. Building on TTS-Llama, we further propose MoLE-Llama, a text-and-speech multimodal LLM developed through purely late-fusion parameter-efficient fine-tuning (PEFT) and a mixture-of-expert architecture. Extensive empirical results demonstrate MoLE-Llama's competitive performance on both text-only question-answering (QA) and TTS tasks, mitigating catastrophic forgetting issue in either modality. Finally, we further explore MoLE-Llama in text-in-speech-out QA tasks, demonstrating its great potential as a multimodal dialog system capable of speech generation.