FlowTSE: Target Speaker Extraction with Flow Matching
作者: Aviv Navon, Aviv Shamsian, Yael Segal-Feldman, Neta Glazer, Gil Hetz, Joseph Keshet
分类: eess.AS, cs.LG, cs.SD
发布日期: 2025-05-20
备注: InterSpeech 2025
💡 一句话要点
FlowTSE:基于流匹配的说话人提取方法,简化流程并提升性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 说话人提取 流匹配 语音分离 生成模型 条件声码器
📋 核心要点
- 现有说话人提取方法多为判别式,生成式方法虽有进展,但流程复杂、计算开销大。
- FlowTSE基于条件流匹配,构建了一个简单有效的说话人提取模型,降低了计算复杂度。
- 实验表明,FlowTSE在标准数据集上表现优异,与现有方法相比,性能持平或更优。
📝 摘要(中文)
本文提出了一种基于条件流匹配的说话人提取方法FlowTSE,旨在从混合语音中提取目标说话人的语音。该模型以注册语音样本和混合语音信号(均表示为梅尔频谱图)作为输入,目标是提取目标说话人的干净语音。此外,对于相位重建至关重要的任务,本文还提出了一种以混合信号的复数STFT为条件的声码器,从而改善相位估计。在标准TSE基准测试上的实验结果表明,FlowTSE能够与强大的基线方法相媲美甚至超越。
🔬 方法详解
问题定义:说话人提取(TSE)旨在从混合语音中分离出特定说话人的语音,并使用说话人注册信息作为参考。现有方法,特别是生成式方法,虽然取得了不错的成果,但通常依赖于复杂的流程和预训练组件,导致计算开销过大,并且生成式方法在TSE领域的探索还不够充分。
核心思路:FlowTSE的核心思路是利用条件流匹配来学习混合语音到目标说话人语音的映射。通过学习一个连续的变换,将混合语音逐步转化为目标说话人的干净语音。这种方法避免了复杂的中间步骤和预训练模型,从而简化了流程并降低了计算成本。
技术框架:FlowTSE模型接收注册语音样本和混合语音信号作为输入,两者都表示为梅尔频谱图。模型的核心是一个条件流匹配模块,它学习一个时间相关的向量场,将混合语音逐步变换为目标说话人的干净语音。此外,为了改善相位重建,论文还提出了一个以混合信号的复数STFT为条件的声码器。整体流程包括:1) 输入梅尔频谱图;2) 通过条件流匹配模块进行语音分离;3) 使用条件声码器进行相位重建(可选)。
关键创新:FlowTSE的关键创新在于将条件流匹配应用于说话人提取任务,并设计了一个以混合信号的复数STFT为条件的声码器。与传统的生成式方法相比,FlowTSE避免了复杂的pipeline和预训练组件,简化了模型结构,降低了计算复杂度。此外,条件声码器的设计能够更好地利用混合信号的相位信息,从而改善相位重建效果。
关键设计:FlowTSE使用梅尔频谱图作为语音特征,并采用了一种基于神经网络的条件流匹配模块。该模块通过学习一个时间相关的向量场,将混合语音逐步变换为目标说话人的干净语音。损失函数包括流匹配损失和重建损失。条件声码器以混合信号的复数STFT为条件,通过学习一个映射,将梅尔频谱图转换为高质量的语音信号。具体的网络结构和参数设置在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FlowTSE在标准TSE基准测试上表现优异,与强大的基线方法相比,性能持平或更优。具体而言,FlowTSE在某些指标上取得了显著的提升,证明了其在说话人提取任务中的有效性。此外,条件声码器的引入进一步改善了相位重建效果,提升了语音质量。
🎯 应用场景
FlowTSE技术可应用于语音助手、电话会议、助听器等多种场景,能够有效提升嘈杂环境下目标说话人的语音质量,提高语音识别准确率和用户体验。未来,该技术有望在智能家居、车载系统等领域得到广泛应用,为人们提供更清晰、更自然的语音交互体验。
📄 摘要(原文)
Target speaker extraction (TSE) aims to isolate a specific speaker's speech from a mixture using speaker enrollment as a reference. While most existing approaches are discriminative, recent generative methods for TSE achieve strong results. However, generative methods for TSE remain underexplored, with most existing approaches relying on complex pipelines and pretrained components, leading to computational overhead. In this work, we present FlowTSE, a simple yet effective TSE approach based on conditional flow matching. Our model receives an enrollment audio sample and a mixed speech signal, both represented as mel-spectrograms, with the objective of extracting the target speaker's clean speech. Furthermore, for tasks where phase reconstruction is crucial, we propose a novel vocoder conditioned on the complex STFT of the mixed signal, enabling improved phase estimation. Experimental results on standard TSE benchmarks show that FlowTSE matches or outperforms strong baselines.