Enhancing Code-switched Text-to-Speech Synthesis Capability in Large Language Models with only Monolingual Corpora

📄 arXiv: 2409.10969v2 📥 PDF

作者: Jing Xu, Daxin Tan, Jiaqi Wang, Xiao Chen

分类: eess.AS, cs.CL, cs.SD

发布日期: 2024-09-17 (更新: 2025-08-22)

备注: Accepted to ASRU2025


💡 一句话要点

提出CS-LLM,仅用单语语料提升大语言模型在混合语文本转语音合成中的能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 混合语语音合成 大语言模型 单语语料 数据增强 多语种语音处理

📋 核心要点

  1. 现有大语言模型在语音生成和识别方面的应用主要局限于单语场景,在混合语(Code-Switched)环境下的探索有限。
  2. 论文提出CS-LLM模型,核心思想是利用单语语料构建混合语数据,提升LLM在混合语文本转语音合成方面的能力。
  3. 实验结果表明,该方法在自然度、说话人一致性和相似性方面优于基线方法,并且构建的混合语数据还能提升多语种语音合成和识别能力。

📝 摘要(中文)

本文提出了一种Code-Switched Large Language Model (CS-LLM),旨在仅使用单语语料库来增强大语言模型在混合语文本转语音合成(CS TTS)方面的能力。具体而言,首先通过多语种语音识别和合成任务来提升LLM的多语种语音处理能力。然后,开发了一种有效的混合语(CS)数据构建策略,该策略通过分割和连接来自不同单语语音语料库的单词,使LLM具备更强的CS TTS能力。实验表明,即使在数据有限的情况下,该方法在自然度、说话人一致性和相似性方面也优于CS TTS的基线方法。此外,构建的CS数据进一步提高了多语种语音合成和识别能力。

🔬 方法详解

问题定义:论文旨在解决大语言模型在混合语文本转语音合成(CS TTS)中表现不佳的问题。现有方法通常需要大量的混合语数据进行训练,而混合语数据获取成本高昂。因此,如何在仅有单语语料的情况下提升LLM的CS TTS能力是一个挑战。

核心思路:论文的核心思路是利用单语语料构建伪混合语数据,从而在不依赖大量真实混合语数据的情况下,提升LLM的CS TTS能力。通过分割和连接来自不同单语语音语料库的单词,可以有效地模拟混合语的语言现象。

技术框架:CS-LLM的整体框架包含两个主要阶段:1) 多语种能力增强阶段:通过多语种语音识别和合成任务,提升LLM的多语种语音处理能力。2) 混合语数据构建与训练阶段:开发一种有效的混合语数据构建策略,利用单语语料生成伪混合语数据,并使用这些数据对LLM进行微调,从而提升其CS TTS能力。

关键创新:该论文的关键创新在于提出了一种仅使用单语语料构建混合语数据的方法。这种方法避免了对大量真实混合语数据的依赖,降低了训练成本。此外,通过分割和连接单词的方式构建混合语数据,能够有效地模拟混合语的语言现象。

关键设计:混合语数据构建策略是关键设计之一。具体来说,该策略包括以下步骤:1) 从不同的单语语音语料库中选择单词。2) 将这些单词分割成音素或子词单元。3) 将来自不同语言的音素或子词单元连接起来,形成伪混合语序列。4) 使用这些伪混合语序列生成语音数据,用于训练LLM。具体的参数设置和损失函数等技术细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的CS-LLM方法在混合语文本转语音合成任务中,在自然度、说话人一致性和相似性方面均优于基线方法。即使在数据有限的情况下,该方法也能取得显著的性能提升。此外,构建的混合语数据还能进一步提高多语种语音合成和识别能力,证明了该方法的有效性和泛化能力。

🎯 应用场景

该研究成果可应用于多语言环境下的语音助手、语音翻译、以及跨文化交流等领域。例如,可以开发能够自然流畅地进行混合语语音交互的智能客服,或者帮助语言学习者更好地理解和掌握混合语的语言现象。该研究有助于推动多语言语音技术的发展,促进不同文化之间的交流与融合。

📄 摘要(原文)

While Large Language Models (LLMs) have shown potential in speech generation and recognition, their applications are mainly confined to monolingual scenarios, with limited explorations in code-switched (CS) contexts. In this paper, we propose a Code-Switched Large Language Model (CS-LLM) to enhance the code-switched text-to-speech synthesis (CS TTS) capability in LLMs with only monolingual corpora. Specifically, we begin by enhancing the multilingual speech processing ability of LLMs through multilingual speech recognition and synthesis tasks. Then, we develop an effective code-switched (CS) data construction strategy that splits and concatenates words from different monolingual speech corpora to equip LLMs with improved CS TTS ability. Experiments show that our approach outperforms baselines in CS TTS in terms of naturalness, speaker consistency and similarity even with limited data. Additionally, the constructed CS data further improves multilingual speech synthesis and recognition.