Improving Audio Codec-based Zero-Shot Text-to-Speech Synthesis with Multi-Modal Context and Large Language Model

作者: Jinlong Xue, Yayue Deng, Yicheng Han, Yingming Gao, Ya Li

分类: cs.SD, cs.CL, eess.AS

发布日期: 2024-06-06

备注: Accepted by Interspeech 2024

💡 一句话要点

提出MMCE-Qformer，利用多模态上下文和LLM改进基于音频编解码器的零样本TTS，适用于长文本语音合成。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 零样本TTS 多模态融合 上下文学习 语音合成 大型语言模型 音频编解码器 Qformer

📋 核心要点

现有零样本TTS方法依赖短语音提示，无法有效利用长文本上下文信息，限制了其在有声读物等场景的应用。
论文提出MMCE-Qformer，融合多模态上下文信息，并利用预训练LLM提升语义理解，SoundStorm提升音频质量。
实验结果表明，该方法在各种上下文TTS场景中优于现有基线方法，提升了语音合成的质量和说话人相似度。

📝 摘要（中文）

本文提出了一种新颖的基于音频编解码器的TTS模型，旨在通过多重增强来适应上下文特征，从而改进零样本TTS。现有方法仅支持短语音提示，无法利用长上下文信息，这在有声读物和对话式TTS场景中是不足的。受Qformer成功的启发，我们提出了多模态上下文增强的Qformer（MMCE-Qformer），以利用额外的多模态上下文信息。此外，我们调整了一个预训练的LLM，以利用其理解能力来预测语义tokens，并使用SoundStorm生成声学tokens，从而提高音频质量和说话人相似度。大量的客观和主观评估表明，我们提出的方法在各种上下文TTS场景中优于基线方法。

🔬 方法详解

问题定义：现有基于音频编解码器的零样本TTS模型主要依赖于短语音提示，无法充分利用长文本上下文信息。这导致在需要长文本语音合成的场景（如有声读物、对话式TTS）中，合成语音的质量和连贯性受到限制。现有方法难以有效整合文本和语音的上下文信息，从而影响了说话人特征的保持和韵律的自然性。

核心思路：论文的核心思路是利用多模态上下文信息来增强TTS模型对长文本的理解和生成能力。通过引入MMCE-Qformer，模型可以同时处理文本和语音的上下文信息，从而更好地捕捉说话人的特征和文本的语义信息。此外，利用预训练LLM的强大语义理解能力，可以更准确地预测语义tokens，指导声学tokens的生成。

技术框架：该TTS模型主要包含以下几个模块：1) 多模态上下文增强的Qformer (MMCE-Qformer)：用于融合文本和语音的上下文信息。2) 预训练LLM：用于预测语义tokens。3) SoundStorm：用于生成声学tokens。整体流程是：首先，MMCE-Qformer处理文本和语音的上下文信息，提取特征；然后，LLM根据提取的特征预测语义tokens；最后，SoundStorm根据语义tokens生成声学tokens，从而合成语音。

关键创新：论文的关键创新在于提出了MMCE-Qformer，它能够有效地融合多模态上下文信息，从而提升TTS模型对长文本的理解和生成能力。与传统的Qformer相比，MMCE-Qformer针对多模态数据进行了优化，能够更好地捕捉文本和语音之间的关联性。此外，利用预训练LLM和SoundStorm，可以进一步提升语音合成的质量和说话人相似度。

关键设计：MMCE-Qformer的具体结构未知，但根据Qformer的原理，可能包含多个Transformer层，用于学习文本和语音的联合表示。LLM的选择和训练策略未知，但需要保证其能够有效地预测语义tokens。SoundStorm的配置也未知，但需要保证其能够根据语义tokens生成高质量的声学tokens。损失函数可能包含语义预测损失和声学重建损失，用于优化LLM和SoundStorm的参数。

🖼️ 关键图片

📊 实验亮点

实验结果表明，提出的MMCE-Qformer在各种上下文TTS场景中均优于基线方法。具体的性能数据未知，但摘要中提到在音频质量和说话人相似度方面均有提升。通过主观和客观评估，验证了该方法在长文本语音合成方面的有效性。与仅使用短语音提示的现有方法相比，该方法能够更好地捕捉说话人的特征和文本的语义信息。

🎯 应用场景

该研究成果可广泛应用于有声读物制作、对话式语音助手、个性化语音合成等领域。通过利用长文本上下文信息，可以生成更加自然、连贯的语音，提升用户体验。此外，该方法还可以用于语音克隆，只需少量语音数据即可合成具有特定说话人特征的语音，具有重要的商业价值。

📄 摘要（原文）

Recent advances in large language models (LLMs) and development of audio codecs greatly propel the zero-shot TTS. They can synthesize personalized speech with only a 3-second speech of an unseen speaker as acoustic prompt. However, they only support short speech prompts and cannot leverage longer context information, as required in audiobook and conversational TTS scenarios. In this paper, we introduce a novel audio codec-based TTS model to adapt context features with multiple enhancements. Inspired by the success of Qformer, we propose a multi-modal context-enhanced Qformer (MMCE-Qformer) to utilize additional multi-modal context information. Besides, we adapt a pretrained LLM to leverage its understanding ability to predict semantic tokens, and use a SoundStorm to generate acoustic tokens thereby enhancing audio quality and speaker similarity. The extensive objective and subjective evaluations show that our proposed method outperforms baselines across various context TTS scenarios.

Improving Audio Codec-based Zero-Shot Text-to-Speech Synthesis with Multi-Modal Context and Large Language Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理