Joint Semantic Knowledge Distillation and Masked Acoustic Modeling for Full-band Speech Restoration with Improved Intelligibility
作者: Xiaoyu Liu, Xu Li, Joan Serrà, Santiago Pascual
分类: cs.SD, cs.AI, eess.AS, eess.SP
发布日期: 2024-09-14
备注: Demo link https://masksr.github.io/MaskSR2/
💡 一句话要点
提出MaskSR2模型,结合知识蒸馏和掩码声学建模,提升全频带语音恢复的清晰度
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 语音恢复 知识蒸馏 掩码声学建模 语音清晰度 自监督学习
📋 核心要点
- 现有语音恢复模型如MaskSR在质量上表现良好,但在语音清晰度方面仍有提升空间,尤其是在存在多种失真的情况下。
- MaskSR2的核心思想是利用预训练的自监督模型提取语义信息,并将其融入到语音编码器中,从而提升模型对语音内容的理解。
- 实验表明,MaskSR2在保持模型容量和推理时间不变的情况下,显著降低了词错误率,并在语音质量上保持了竞争力。
📝 摘要(中文)
本文针对语音恢复任务,旨在恢复具有高质量和高清晰度的全频带语音,尤其是在存在各种失真的情况下。MaskSR是最近提出的用于此任务的生成模型。虽然MaskSR可以实现高质量的语音恢复,但本文指出其清晰度仍有提升空间。为此,本文提出MaskSR2模型,通过使用预训练的自监督教师模型预测目标语音的语义表示,来增强MaskSR的语音编码器组件。然后,一个掩码语言模型以学习到的语义特征为条件,预测声学token,这些token编码了目标语音的低级频谱细节。实验结果表明,在相同的MaskSR模型容量和推理时间下,MaskSR2显著降低了词错误率(WER),这是清晰度的典型指标。MaskSR2在其他模型中也实现了具有竞争力的词错误率,同时提供了卓越的质量。消融研究表明了各种语义表示的有效性。
🔬 方法详解
问题定义:语音恢复旨在从受损的语音信号中重建高质量、高清晰度的全频带语音。现有方法,如MaskSR,虽然在语音质量上表现良好,但在语音清晰度方面仍有不足,尤其是在存在多种失真(例如噪声、截断等)的情况下。清晰度不足会导致听者难以理解恢复后的语音内容。
核心思路:本文的核心思路是利用知识蒸馏,将预训练的自监督模型学习到的语义信息迁移到语音恢复模型中,从而增强模型对语音内容的理解,提升恢复后语音的清晰度。具体来说,使用预训练的自监督模型作为教师模型,提取目标语音的语义表示,然后将这些语义表示作为额外的输入,指导语音编码器的学习。
技术框架:MaskSR2模型的技术框架主要包含以下几个模块:1) 语音编码器:用于提取输入语音的特征表示。2) 语义编码器:使用预训练的自监督模型(例如HuBERT、wav2vec 2.0等)提取目标语音的语义表示。3) 掩码语言模型(MLM):以语音编码器和语义编码器的输出为条件,预测声学token。4) 解码器:将预测的声学token解码为恢复后的语音信号。整个流程可以看作是先利用语义信息增强语音编码器的特征表示,然后利用掩码语言模型预测低级的声学细节,最后重建语音。
关键创新:本文最重要的技术创新点在于将知识蒸馏和掩码声学建模相结合,用于提升语音恢复的清晰度。与传统的语音恢复方法相比,MaskSR2模型能够更好地利用语义信息,从而生成更清晰的语音。此外,使用掩码语言模型预测声学token,可以更好地捕捉语音的低级频谱细节。
关键设计:在MaskSR2模型中,关键的设计包括:1) 教师模型的选择:选择了预训练的自监督模型,例如HuBERT或wav2vec 2.0,作为教师模型,提取语义信息。2) 语义特征的融合方式:将语义特征与语音编码器的输出进行拼接或相加,作为掩码语言模型的输入。3) 损失函数的设计:使用了词错误率(WER)作为清晰度的评估指标,并将其作为损失函数的一部分,指导模型的训练。4) 声学token的选择:使用了离散的声学token,例如VQ-VAE的输出,作为掩码语言模型的预测目标。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MaskSR2模型在相同的模型容量和推理时间下,显著降低了词错误率(WER),这是清晰度的典型指标。具体来说,MaskSR2模型在测试集上实现了优于MaskSR和其他基线模型的WER。同时,MaskSR2模型在语音质量方面也保持了竞争力,表明该模型在提升清晰度的同时,没有牺牲语音质量。
🎯 应用场景
该研究成果可应用于各种语音增强和恢复场景,例如助听器、语音通信、语音识别前端处理等。在嘈杂或失真的环境下,该模型可以恢复清晰的语音,提高沟通效率和语音识别准确率。未来,该技术有望应用于实时语音处理系统,为用户提供更好的语音体验。
📄 摘要(原文)
Speech restoration aims at restoring full-band speech with high quality and intelligibility, considering a diverse set of distortions. MaskSR is a recently proposed generative model for this task. As other models of its kind, MaskSR attains high quality but, as we show, intelligibility can be substantially improved. We do so by boosting the speech encoder component of MaskSR with predictions of semantic representations of the target speech, using a pre-trained self-supervised teacher model. Then, a masked language model is conditioned on the learned semantic features to predict acoustic tokens that encode low level spectral details of the target speech. We show that, with the same MaskSR model capacity and inference time, the proposed model, MaskSR2, significantly reduces the word error rate, a typical metric for intelligibility. MaskSR2 also achieves competitive word error rate among other models, while providing superior quality. An ablation study shows the effectiveness of various semantic representations.