Improving Voice Quality in Speech Anonymization With Just Perception-Informed Losses

📄 arXiv: 2410.15499v1 📥 PDF

作者: Suhita Ghosh, Tim Thiele, Frederic Lorbeer, Frank Dreyer, Sebastian Stober

分类: cs.AI, cs.SD, eess.AS

发布日期: 2024-10-20

备注: Accepted in NeurIPS 2024 Workshop (Audio Imagination)


💡 一句话要点

提出感知驱动损失函数,提升语音匿名化中语音质量

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 语音匿名化 语音转换 VQVAE 感知驱动损失 语音质量评估

📋 核心要点

  1. 现有语音匿名化方法依赖复杂架构和训练技巧,忽略了人类听觉感知的重要性。
  2. 论文提出感知驱动的损失函数,结合手工特征和深度学习特征,提升语音质量表征。
  3. 实验表明,基于VQVAE的模型结合该损失函数,在自然度、可懂性和韵律方面均有提升。

📝 摘要(中文)

云端语音助手的日益普及,对有效的语音匿名化提出了更高要求。语音匿名化旨在模糊说话人的身份,同时保留后续任务所需的关键信息。语音转换是实现这一目标的一种方法。现有方法通常侧重于复杂的架构和训练技巧,而我们的研究强调了受人类听觉系统启发的损失函数的重要性。我们提出的损失函数与模型无关,结合了手工特征和基于深度学习的特征,以有效地捕捉质量表征。通过客观和主观评估,我们证明了基于VQVAE的模型,通过我们感知驱动的损失函数增强后,在自然度、可懂性和韵律方面优于原始模型,同时保持了说话人的匿名性。这些改进在各种数据集、语言、目标说话人和性别中都得到了一致的观察。

🔬 方法详解

问题定义:语音匿名化的目标是在保护说话人身份信息的同时,保留语音内容和相关特征,以便后续任务使用。现有方法往往侧重于复杂的模型架构和训练策略,而忽略了人类听觉感知在语音质量评估中的作用,导致匿名化后的语音质量下降,影响可用性。

核心思路:论文的核心思路是设计与人类听觉系统相关的损失函数,从而在训练过程中引导模型生成更高质量的匿名化语音。这种方法强调了感知的重要性,并试图通过损失函数直接优化语音的感知质量,而非仅仅依赖于模型的复杂性。

技术框架:论文采用基于VQVAE(Vector Quantized Variational Autoencoder)的语音转换模型作为基础框架。在此基础上,引入了感知驱动的损失函数,用于指导VQVAE模型的训练。整体流程包括:输入原始语音,通过VQVAE进行编码和解码,生成匿名化语音,然后使用感知驱动的损失函数评估生成语音的质量,并反向传播误差以更新模型参数。

关键创新:论文的关键创新在于提出了感知驱动的损失函数,该损失函数结合了手工特征和基于深度学习的特征,能够更准确地捕捉语音的感知质量。与传统的损失函数相比,该损失函数更贴近人类的听觉感知,能够更好地指导模型生成自然、可懂且具有良好韵律的匿名化语音。

关键设计:感知驱动的损失函数包含多个组成部分,包括基于手工特征的损失(例如,频谱距离、梅尔倒谱系数距离)和基于深度学习特征的损失(例如,使用预训练的语音识别模型提取的特征)。这些损失函数被加权组合,以平衡不同特征的重要性。具体的权重参数需要根据实验结果进行调整,以获得最佳的性能。此外,VQVAE模型的具体结构和参数设置也会影响最终的语音质量,需要根据具体任务进行优化。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,基于VQVAE的模型,通过感知驱动的损失函数增强后,在自然度、可懂性和韵律方面均优于原始模型。主观听力测试表明,使用感知驱动损失函数的模型生成的语音更自然,更容易理解。客观指标也显示,该模型在语音质量方面有显著提升,同时保持了说话人的匿名性。

🎯 应用场景

该研究成果可应用于各种需要语音匿名化的场景,例如保护云端语音助手的用户隐私、在语音数据集中隐藏说话人身份、以及在语音分析和研究中保护参与者的隐私。该方法能够提高匿名化语音的质量,使其更易于理解和使用,从而促进语音技术的更广泛应用。

📄 摘要(原文)

The increasing use of cloud-based speech assistants has heightened the need for effective speech anonymization, which aims to obscure a speaker's identity while retaining critical information for subsequent tasks. One approach to achieving this is through voice conversion. While existing methods often emphasize complex architectures and training techniques, our research underscores the importance of loss functions inspired by the human auditory system. Our proposed loss functions are model-agnostic, incorporating handcrafted and deep learning-based features to effectively capture quality representations. Through objective and subjective evaluations, we demonstrate that a VQVAE-based model, enhanced with our perception-driven losses, surpasses the vanilla model in terms of naturalness, intelligibility, and prosody while maintaining speaker anonymity. These improvements are consistently observed across various datasets, languages, target speakers, and genders.