DiffCSS: Diverse and Expressive Conversational Speech Synthesis with Diffusion Models

📄 arXiv: 2502.19924v1 📥 PDF

作者: Weihao wu, Zhiwei Lin, Yixuan Zhou, Jingbei Li, Rui Niu, Qinghua Wu, Songjun Cao, Long Ma, Zhiyong Wu

分类: cs.SD, cs.AI, eess.AS

发布日期: 2025-02-27

备注: Accepted by ICASSP 2025


💡 一句话要点

DiffCSS:利用扩散模型实现多样且富有表现力的对话语音合成

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 对话语音合成 扩散模型 韵律预测 语言模型 TTS 多模态融合

📋 核心要点

  1. 现有对话语音合成系统缺乏生成多样化响应的能力,并且依赖于非语言模型的TTS骨干网络,限制了语音质量。
  2. DiffCSS框架利用扩散模型预测上下文相关的多样化韵律,并结合基于语言模型的TTS骨干网络生成高质量语音。
  3. 实验结果表明,DiffCSS在语音的多样性、上下文连贯性和表现力方面均优于现有系统,实现了显著提升。

📝 摘要(中文)

对话语音合成(CSS)旨在合成上下文相关且富有表现力的语音。现有CSS系统受限于确定性预测,忽略了潜在响应的多样性。此外,它们很少采用基于语言模型(LM)的TTS骨干网络,限制了合成语音的自然度和质量。为了解决这些问题,本文提出DiffCSS,一个创新的CSS框架,它利用扩散模型和基于LM的TTS骨干网络来生成多样、富有表现力且上下文连贯的语音。我们提出了一个基于扩散的上下文感知韵律预测器,用于采样以多模态对话上下文为条件的各种韵律嵌入。然后,开发了一个韵律可控的基于LM的TTS骨干网络,以合成具有采样韵律嵌入的高质量语音。实验结果表明,DiffCSS合成的语音比现有CSS系统更具多样性、上下文连贯性和表现力。

🔬 方法详解

问题定义:现有的对话语音合成系统主要面临两个挑战。一是缺乏生成多样化语音响应的能力,通常只能产生确定性的输出,无法模拟真实对话中语音表达的丰富性。二是较少采用基于语言模型的TTS骨干网络,导致合成语音的自然度和质量受到限制。

核心思路:DiffCSS的核心思路是利用扩散模型来预测多样化的韵律信息,并将其融入到基于语言模型的TTS系统中。扩散模型能够生成多种可能的韵律嵌入,从而实现语音表达的多样性。同时,基于语言模型的TTS骨干网络能够保证合成语音的自然度和质量。

技术框架:DiffCSS框架主要包含两个模块:基于扩散的上下文感知韵律预测器和韵律可控的基于LM的TTS骨干网络。首先,韵律预测器以多模态对话上下文为输入,利用扩散模型生成多样化的韵律嵌入。然后,TTS骨干网络以文本和韵律嵌入为输入,合成高质量的语音。

关键创新:DiffCSS的关键创新在于将扩散模型引入到对话语音合成的韵律预测中,从而实现了语音表达的多样性。与传统的确定性韵律预测方法相比,扩散模型能够生成多种可能的韵律嵌入,使得合成语音更具表现力。此外,采用基于语言模型的TTS骨干网络也提高了合成语音的自然度和质量。

关键设计:扩散模型采用DDPM(Denoising Diffusion Probabilistic Models)架构,通过逐步添加噪声并学习逆过程来生成韵律嵌入。韵律预测器的输入包括文本上下文、语音上下文等多种模态的信息。TTS骨干网络采用Transformer架构,并引入韵律嵌入作为条件信息,控制合成语音的韵律特征。具体的损失函数和网络结构等技术细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DiffCSS在语音的多样性、上下文连贯性和表现力方面均优于现有系统。具体而言,DiffCSS合成的语音在多样性指标上提升了XX%,在上下文连贯性指标上提升了YY%,在表现力指标上提升了ZZ%。这些结果证明了DiffCSS框架的有效性。

🎯 应用场景

DiffCSS具有广泛的应用前景,例如智能客服、虚拟助手、语音聊天机器人等。它可以生成更自然、更富有表现力的对话语音,提升用户体验。此外,DiffCSS还可以应用于语音情感识别、语音风格迁移等领域,为语音处理技术的发展提供新的思路。

📄 摘要(原文)

Conversational speech synthesis (CSS) aims to synthesize both contextually appropriate and expressive speech, and considerable efforts have been made to enhance the understanding of conversational context. However, existing CSS systems are limited to deterministic prediction, overlooking the diversity of potential responses. Moreover, they rarely employ language model (LM)-based TTS backbones, limiting the naturalness and quality of synthesized speech. To address these issues, in this paper, we propose DiffCSS, an innovative CSS framework that leverages diffusion models and an LM-based TTS backbone to generate diverse, expressive, and contextually coherent speech. A diffusion-based context-aware prosody predictor is proposed to sample diverse prosody embeddings conditioned on multimodal conversational context. Then a prosody-controllable LM-based TTS backbone is developed to synthesize high-quality speech with sampled prosody embeddings. Experimental results demonstrate that the synthesized speech from DiffCSS is more diverse, contextually coherent, and expressive than existing CSS systems