Mask2Flow-TSE: Two-Stage Target Speaker Extraction with Masking and Flow Matching

📄 arXiv: 2603.12837v1 📥 PDF

作者: Junwon Moon, Hyunjin Choi, Hansol Park, Heeseung Kim, Kyuhong Shim

分类: cs.SD, cs.AI

发布日期: 2026-03-13

备注: Submitted to Interspeech 2026


💡 一句话要点

提出Mask2Flow-TSE,结合掩码与流匹配实现高质量目标说话人提取

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 目标说话人提取 语音分离 时频掩码 流匹配 连续归一化流

📋 核心要点

  1. 现有目标说话人提取方法在速度和质量上存在trade-off,判别式方法快但质量低,生成式方法质量高但速度慢。
  2. Mask2Flow-TSE结合判别式掩码和生成式流匹配,先用掩码粗略分离,再用流匹配精细重建,兼顾速度和质量。
  3. 实验表明,Mask2Flow-TSE在参数量适中的情况下,性能可与现有生成式方法媲美,实现了高效的目标说话人提取。

📝 摘要(中文)

本文提出了一种名为Mask2Flow-TSE的两阶段目标说话人提取(TSE)框架,旨在从重叠语音混合中提取目标说话人的声音。现有方法通常分为判别式和生成式两类。判别式方法采用时频掩码进行快速推理,但常常过度抑制目标信号;生成式方法能够合成高质量语音,但需要大量的迭代步骤。Mask2Flow-TSE结合了两者的优点:第一阶段应用判别式掩码进行粗略分离,第二阶段采用流匹配来优化输出,使其更接近目标语音。与从高斯噪声合成语音的生成式方法不同,Mask2Flow-TSE从掩码后的频谱图开始,从而能够在单个推理步骤中实现高质量重建。实验结果表明,Mask2Flow-TSE在参数量约为85M的情况下,达到了与现有生成式TSE方法相当的性能。

🔬 方法详解

问题定义:目标说话人提取(TSE)旨在从混合语音中分离出特定说话人的语音,需要参考一段目标说话人的语音。现有的判别式方法(如基于掩码的方法)虽然推理速度快,但容易过度抑制目标语音,导致质量下降。而生成式方法虽然能产生高质量的语音,但通常需要多次迭代,计算成本高昂。

核心思路:Mask2Flow-TSE的核心思路是结合判别式和生成式方法的优点。首先使用判别式掩码进行初步分离,快速得到一个粗略的目标说话人语音估计。然后,利用流匹配技术,将这个粗略的估计逐步优化到更接近真实目标语音的分布,从而提高语音质量,同时避免了从噪声开始生成语音的缓慢过程。

技术框架:Mask2Flow-TSE是一个两阶段的框架。第一阶段是掩码阶段,使用一个神经网络预测时频掩码,将混合语音频谱乘以该掩码,得到初步分离的频谱。第二阶段是流匹配阶段,使用连续归一化流(Continuous Normalizing Flow, CNF)模型,将第一阶段输出的频谱逐步变换到目标说话人的频谱分布。整个框架的输入是混合语音和目标说话人的参考语音,输出是提取出的目标说话人语音。

关键创新:Mask2Flow-TSE的关键创新在于使用流匹配技术来精细化掩码后的语音。与传统的生成式方法从高斯噪声开始生成语音不同,Mask2Flow-TSE从掩码后的频谱图开始,大大缩短了生成过程,提高了效率。此外,使用连续归一化流可以学习到更复杂的语音分布,从而提高语音质量。

关键设计:掩码阶段的网络结构可以是任何现有的语音分离网络,例如Conv-TasNet或DPRNN。流匹配阶段使用连续归一化流,其结构通常包含多个耦合层,每个耦合层包含一个神经网络,用于计算变换参数。损失函数包括掩码损失和流匹配损失,掩码损失用于训练掩码阶段的网络,流匹配损失用于训练CNF模型。具体的参数设置和网络结构需要根据具体的数据集和任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Mask2Flow-TSE在目标说话人提取任务上取得了有竞争力的结果。该方法在参数量约为85M的情况下,达到了与现有生成式TSE方法相当的性能,证明了其高效性。与传统的生成式方法相比,Mask2Flow-TSE在推理速度上具有显著优势,更适合实时应用。

🎯 应用场景

Mask2Flow-TSE可应用于各种语音处理场景,如语音助手、视频会议、助听设备等。在嘈杂环境中,它可以提取特定说话人的语音,提高语音识别的准确率和语音通信的质量。该技术还有潜力应用于语音编辑、语音增强等领域,具有广阔的应用前景。

📄 摘要(原文)

Target speaker extraction (TSE) extracts the target speaker's voice from overlapping speech mixtures given a reference utterance. Existing approaches typically fall into two categories: discriminative and generative. Discriminative methods apply time-frequency masking for fast inference but often over-suppress the target signal, while generative methods synthesize high-quality speech at the cost of numerous iterative steps. We propose Mask2Flow-TSE, a two-stage framework combining the strengths of both paradigms. The first stage applies discriminative masking for coarse separation, and the second stage employs flow matching to refine the output toward target speech. Unlike generative approaches that synthesize speech from Gaussian noise, our method starts from the masked spectrogram, enabling high-quality reconstruction in a single inference step. Experiments show that Mask2Flow-TSE achieves comparable performance to existing generative TSE methods with approximately 85M parameters.