Self-Supervised Disentangled Representation Learning for Robust Target Speech Extraction
作者: Zhaoxi Mu, Xinyu Yang, Sining Sun, Qing Yang
分类: cs.SD, cs.AI, cs.LG, eess.AS
发布日期: 2023-12-16 (更新: 2024-08-24)
备注: Accepted by AAAI2024
💡 一句话要点
提出自监督解耦表示学习方法,提升目标语音提取的鲁棒性,减少说话人混淆。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 目标语音提取 自监督学习 解耦表示学习 说话人混淆 Transformer
📋 核心要点
- 目标语音提取中,参考语音中与说话人身份无关的信息会导致说话人混淆,降低提取性能。
- 提出自监督解耦表示学习,通过两阶段网络解耦说话人身份信息,并用解耦信息指导语音提取。
- 引入自适应调制Transformer,利用说话人嵌入作为条件信息,在不干扰声学表示的前提下指导语音提取,降低说话人混淆。
📝 摘要(中文)
语音信号本质上是复杂的,既包含全局声学特征,也包含局部语义信息。然而,在目标语音提取任务中,参考语音中某些与说话人身份无关的全局和局部语义信息,会导致语音提取网络中的说话人混淆。为了克服这一挑战,我们提出了一种自监督解耦表示学习方法。我们的方法通过一个两阶段过程来解决这个问题,利用参考语音编码网络和全局信息解耦网络,逐步将说话人身份信息与其他无关因素解耦。我们专门使用解耦后的说话人身份信息来指导语音提取网络。此外,我们引入了自适应调制Transformer,以确保混合信号的声学表示不受说话人嵌入的影响。该组件将说话人嵌入作为条件信息,从而为语音提取网络提供自然而有效的指导。实验结果证实了我们精心设计的方法的有效性,展示了说话人混淆可能性的显著降低。
🔬 方法详解
问题定义:目标语音提取旨在从混合语音中提取出特定说话人的语音。现有方法容易受到参考语音中与说话人身份无关的信息的干扰,导致提取出的语音包含其他说话人的特征,即说话人混淆。现有方法的痛点在于无法有效区分和利用参考语音中真正代表说话人身份的信息。
核心思路:论文的核心思路是将参考语音中的说话人身份信息与其他无关信息(如内容、情感等)进行解耦,只利用解耦后的说话人身份信息来指导语音提取。这样可以避免无关信息对提取过程的干扰,从而减少说话人混淆。解耦是通过自监督学习的方式实现的,不需要额外的标签信息。
技术框架:整体框架包含三个主要模块:参考语音编码网络、全局信息解耦网络和语音提取网络。首先,参考语音编码网络将参考语音编码成一个表示向量。然后,全局信息解耦网络将该向量解耦成说话人身份信息和其他无关信息。最后,语音提取网络利用解耦后的说话人身份信息和混合语音的声学表示来提取目标语音。自适应调制Transformer被用于语音提取网络中,以确保说话人嵌入能够有效地指导语音提取,同时不干扰混合信号的声学表示。
关键创新:最重要的技术创新点是自监督解耦表示学习方法。该方法能够有效地将说话人身份信息与其他无关信息解耦,从而提高目标语音提取的鲁棒性。与现有方法相比,该方法不需要额外的标签信息,并且能够更好地利用参考语音中的说话人身份信息。另一个创新点是自适应调制Transformer,它能够将说话人嵌入作为条件信息,有效地指导语音提取,同时保持混合信号的声学表示不变。
关键设计:全局信息解耦网络的设计是关键。具体来说,该网络可能包含多个编码器-解码器结构,通过对抗训练或信息瓶颈等方法来强制解耦说话人身份信息和其他信息。自适应调制Transformer的具体实现可能涉及将说话人嵌入作为注意力机制的query或key,从而影响Transformer的输出。损失函数的设计也至关重要,可能包含重构损失、解耦损失和语音质量损失等。
📊 实验亮点
论文通过实验验证了所提出方法的有效性,结果表明,该方法能够显著降低说话人混淆的可能性,提高目标语音提取的准确性和鲁棒性。具体的性能数据(如SI-SNR、PESQ等)和对比基线(如传统的语音提取方法)以及提升幅度需要在论文中查找。实验结果表明,该方法在各种噪声环境和说话人组合下均能取得良好的效果。
🎯 应用场景
该研究成果可应用于各种语音处理场景,如语音助手、语音会议、助听器等。通过提高目标语音提取的准确性和鲁棒性,可以改善用户体验,提高语音通信的质量。未来,该技术还可以扩展到其他语音处理任务,如语音识别、说话人识别等,具有广阔的应用前景。
📄 摘要(原文)
Speech signals are inherently complex as they encompass both global acoustic characteristics and local semantic information. However, in the task of target speech extraction, certain elements of global and local semantic information in the reference speech, which are irrelevant to speaker identity, can lead to speaker confusion within the speech extraction network. To overcome this challenge, we propose a self-supervised disentangled representation learning method. Our approach tackles this issue through a two-phase process, utilizing a reference speech encoding network and a global information disentanglement network to gradually disentangle the speaker identity information from other irrelevant factors. We exclusively employ the disentangled speaker identity information to guide the speech extraction network. Moreover, we introduce the adaptive modulation Transformer to ensure that the acoustic representation of the mixed signal remains undisturbed by the speaker embeddings. This component incorporates speaker embeddings as conditional information, facilitating natural and efficient guidance for the speech extraction network. Experimental results substantiate the effectiveness of our meticulously crafted approach, showcasing a substantial reduction in the likelihood of speaker confusion.