Speech Separation with Pretrained Frontend to Minimize Domain Mismatch
作者: Wupeng Wang, Zexu Pan, Xinke Li, Shuai Wang, Haizhou Li
分类: cs.SD, cs.LG, cs.MM, eess.AS
发布日期: 2024-11-05
备注: IEEE/ACM Transactions on Audio, Speech, and Language Processing
期刊: IEEE/ACM Transactions on Audio, Speech, and Language Processing.32(2024)4184-4198
DOI: 10.1109/TASLP.2024.3446242
💡 一句话要点
提出自监督域不变预训练前端,缩小语音分离中真实数据与合成数据间的域差异
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 语音分离 自监督学习 域不变学习 预训练 Siamese网络
📋 核心要点
- 现有语音分离模型在合成数据上训练,与真实数据存在域差异,导致实际应用效果不佳。
- 提出自监督域不变预训练(DIP)前端,通过混合预测编码和混合不变编码学习真实和合成数据的共享上下文信息。
- 实验结果表明,该DIP前端优于现有语音分离模型,提升了真实场景下的语音分离质量和可懂度。
📝 摘要(中文)
语音分离旨在从混合语音信号中分离出个体语音信号。由于真实场景中目标参考语音的不可用性,大多数分离模型通常在合成数据上训练。这导致在真实世界应用中部署语音分离模型时,真实数据和合成数据之间存在域差异。本文提出了一种自监督域不变预训练(DIP)前端,该前端暴露于混合数据,而无需目标参考语音。DIP前端利用具有两个创新预训练任务(混合预测编码(MPC)和混合不变编码(MIC))的 Siamese 网络,以捕获真实和合成无标签混合语音之间的共享上下文线索。随后,在合成数据上训练下游语音分离模型时,我们冻结DIP前端作为特征提取器。通过使用上下文线索预训练DIP前端,我们期望从合成数据中学习到的语音分离技能可以有效地转移到真实数据。为了受益于DIP前端,我们引入了一种新颖的分离流程,以对齐分离模型的特征分辨率。我们在标准基准和真实世界数据集上评估了语音分离质量。结果证实了我们的DIP前端优于现有的语音分离模型。这项研究强调了大规模预训练在提高真实世界应用中语音分离质量和可理解性方面的潜力。
🔬 方法详解
问题定义:语音分离旨在从混合语音中分离出单个语音。现有方法主要依赖于在合成数据上训练的模型,但合成数据与真实数据存在显著的域差异,导致模型在真实场景下的性能下降。因此,如何缩小合成数据和真实数据之间的域差异是亟待解决的问题。
核心思路:本文的核心思路是利用自监督学习方法,预训练一个域不变的特征提取器(DIP前端)。该前端能够学习到真实数据和合成数据之间共享的上下文信息,从而减少域差异的影响。在下游语音分离任务中,该前端被冻结,作为特征提取器,从而将从合成数据中学到的分离能力迁移到真实数据上。
技术框架:整体框架包含两个主要阶段:1) DIP前端的预训练阶段;2) 下游语音分离模型的训练阶段。在预训练阶段,DIP前端使用Siamese网络结构,并采用混合预测编码(MPC)和混合不变编码(MIC)作为预训练任务。在下游训练阶段,DIP前端被冻结,作为特征提取器,将混合语音转换为特征表示,然后输入到语音分离模型中进行训练。为了更好地利用DIP前端提取的特征,论文还提出了一种新的分离流程来对齐特征分辨率。
关键创新:最重要的创新点在于提出了自监督域不变预训练(DIP)前端。与传统的语音分离模型直接在合成数据上训练不同,DIP前端通过自监督学习的方式,学习真实数据和合成数据之间共享的上下文信息,从而减少了域差异的影响。此外,MPC和MIC两个预训练任务的设计也具有创新性,能够有效地提取混合语音中的上下文信息。
关键设计:DIP前端采用Siamese网络结构,包含两个相同的编码器。MPC任务旨在预测混合语音的未来帧,而MIC任务旨在学习混合语音中不同成分之间的不变性表示。损失函数的设计结合了预测损失和对比损失,以鼓励模型学习到域不变的特征表示。在下游分离模型中,使用了Conv-TasNet作为分离网络,并采用了一种新的分离流程来对齐DIP前端提取的特征分辨率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所提出的DIP前端在标准语音分离数据集(如WSJ0-2mix)和真实世界数据集上均取得了显著的性能提升。例如,在WSJ0-2mix数据集上,相比于基线系统,SDR(Signal-to-Distortion Ratio)提升了超过1dB。在真实世界数据集上,DIP前端也表现出优越的泛化能力,证明了其在实际应用中的潜力。
🎯 应用场景
该研究成果可广泛应用于各种语音处理场景,如智能助手、语音会议、助听器等。通过提高真实场景下的语音分离质量,可以显著提升用户体验,并为后续的语音识别、语音增强等任务提供更好的输入。
📄 摘要(原文)
Speech separation seeks to separate individual speech signals from a speech mixture. Typically, most separation models are trained on synthetic data due to the unavailability of target reference in real-world cocktail party scenarios. As a result, there exists a domain gap between real and synthetic data when deploying speech separation models in real-world applications. In this paper, we propose a self-supervised domain-invariant pretrained (DIP) frontend that is exposed to mixture data without the need for target reference speech. The DIP frontend utilizes a Siamese network with two innovative pretext tasks, mixture predictive coding (MPC) and mixture invariant coding (MIC), to capture shared contextual cues between real and synthetic unlabeled mixtures. Subsequently, we freeze the DIP frontend as a feature extractor when training the downstream speech separation models on synthetic data. By pretraining the DIP frontend with the contextual cues, we expect that the speech separation skills learned from synthetic data can be effectively transferred to real data. To benefit from the DIP frontend, we introduce a novel separation pipeline to align the feature resolution of the separation models. We evaluate the speech separation quality on standard benchmarks and real-world datasets. The results confirm the superiority of our DIP frontend over existing speech separation models. This study underscores the potential of large-scale pretraining to enhance the quality and intelligibility of speech separation in real-world applications.