Investigating Disentanglement in a Phoneme-level Speech Codec for Prosody Modeling

📄 arXiv: 2409.08664v1 📥 PDF

作者: Sotirios Karapiperis, Nikolaos Ellinas, Alexandra Vioni, Junkwang Oh, Gunu Jho, Inchul Hwang, Spyros Raptis

分类: cs.SD, cs.CL, cs.LG, eess.AS

发布日期: 2024-09-13


💡 一句话要点

提出基于音素级语音编码的解耦韵律建模方法,实现细粒度韵律控制。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 语音合成 韵律建模 解耦表示 残差矢量量化 音素级别 神经编解码器 语音转换

📋 核心要点

  1. 现有韵律建模方法依赖于连续潜在空间中的全局风格表示,难以实现细粒度控制。
  2. 本文提出一种基于音素级RVQ-VAE的韵律建模方法,通过解耦语音和说话人信息,提取细粒度韵律特征。
  3. 实验表明,该方法能够有效解耦韵律信息,且潜在空间具有可解释性,主成分对应于音高和能量。

📝 摘要(中文)

本文研究了基于残差矢量量化(RVQ)的神经编解码器在韵律建模方面的能力,并对其进行修改使其在音素级别上运行。该模型在编码器和解码器上都以语言表示为条件,并应用全局说话人嵌入来分解语音和说话人信息。通过主观实验和客观指标进行了一系列广泛的调查,表明以这种方式获得的音素级离散潜在表示实现了高度的解耦,捕捉到鲁棒且可迁移的细粒度韵律信息。潜在空间具有可解释的结构,其主成分对应于音高和能量。

🔬 方法详解

问题定义:现有的语音韵律建模方法通常依赖于学习全局风格表示,这些方法在连续潜在空间中编码和迁移参考语音的属性。然而,这种全局表示可能无法捕捉到细粒度的韵律变化,并且难以实现对韵律的精确控制。因此,需要一种能够解耦语音内容、说话人信息和韵律信息,并能捕捉细粒度韵律特征的方法。

核心思路:本文的核心思路是利用基于残差矢量量化(RVQ)的神经编解码器,并将其应用于音素级别。通过在音素级别进行编码,模型能够捕捉到更细粒度的韵律变化。此外,通过条件化编码器和解码器,并引入全局说话人嵌入,模型能够有效地解耦语音内容、说话人信息和韵律信息。

技术框架:该模型基于RVQ-VAE架构,包括编码器和解码器。编码器将音素级别的语音特征映射到离散的潜在空间中。解码器则根据离散的潜在表示重建语音。编码器和解码器都以语言表示为条件,以确保模型能够学习到与语言内容相关的韵律信息。此外,模型还使用全局说话人嵌入来消除说话人信息的影响。整个框架的目标是学习一个解耦的潜在空间,其中包含细粒度的韵律信息。

关键创新:本文的关键创新在于将RVQ-VAE应用于音素级别的韵律建模,并结合条件化和说话人嵌入来实现解耦。与传统的全局风格表示方法相比,该方法能够捕捉到更细粒度的韵律变化,并且具有更好的可解释性。此外,该方法还能够有效地解耦语音内容、说话人信息和韵律信息,从而实现对韵律的精确控制。

关键设计:模型使用RVQ进行离散化,量化器的层数和每个量化器的码本大小是关键参数。损失函数包括重建损失和量化损失,用于优化编码器和解码器。说话人嵌入的大小以及如何将其融入到编码器和解码器中也是重要的设计选择。此外,语言表示的选择(例如,音素序列或词嵌入)也会影响模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

主观实验和客观指标表明,该方法能够有效解耦韵律信息,并捕捉到细粒度的韵律变化。潜在空间的主成分与音高和能量相关,表明该方法具有良好的可解释性。实验结果还表明,该方法生成的韵律特征具有鲁棒性和可迁移性。

🎯 应用场景

该研究成果可应用于语音合成、语音转换、情感语音生成等领域。通过精确控制韵律,可以生成更自然、更富有表现力的语音。例如,在语音合成中,可以根据文本内容和情感需求,生成具有不同韵律特征的语音。在语音转换中,可以将源语音的韵律特征迁移到目标语音,从而改变目标语音的情感色彩。

📄 摘要(原文)

Most of the prevalent approaches in speech prosody modeling rely on learning global style representations in a continuous latent space which encode and transfer the attributes of reference speech. However, recent work on neural codecs which are based on Residual Vector Quantization (RVQ) already shows great potential offering distinct advantages. We investigate the prosody modeling capabilities of the discrete space of such an RVQ-VAE model, modifying it to operate on the phoneme-level. We condition both the encoder and decoder of the model on linguistic representations and apply a global speaker embedding in order to factor out both phonetic and speaker information. We conduct an extensive set of investigations based on subjective experiments and objective measures to show that the phoneme-level discrete latent representations obtained this way achieves a high degree of disentanglement, capturing fine-grained prosodic information that is robust and transferable. The latent space turns out to have interpretable structure with its principal components corresponding to pitch and energy.