DiT-Flow: Speech Enhancement Robust to Multiple Distortions based on Flow Matching in Latent Space and Diffusion Transformers

📄 arXiv: 2603.21608v1 📥 PDF

作者: Tianyu Cao, Helin Wang, Ari Frummer, Yuval Sieradzki, Adi Arbel, Laureano Moro Velazquez, Jesus Villalba, Oren Gal, Thomas Thebaud, Najim Dehak

分类: eess.AS, cs.AI, cs.SD

发布日期: 2026-03-23


💡 一句话要点

提出基于Flow Matching和Diffusion Transformer的DiT-Flow,提升多重失真下的语音增强鲁棒性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 语音增强 Flow Matching 扩散Transformer 多重失真 鲁棒性

📋 核心要点

  1. 现有语音增强模型在有限数据集上训练,泛化性不足,难以应对真实场景中的多种失真。
  2. DiT-Flow利用Flow Matching和潜在扩散Transformer,在VAE潜在空间中进行语音增强,提升鲁棒性。
  3. 实验表明,DiT-Flow在多重失真下优于现有模型,并结合LoRA和MoE实现参数高效的训练。

📝 摘要(中文)

本文提出了一种名为DiT-Flow的语音增强(SE)框架,该框架基于Flow Matching,并采用潜在扩散Transformer(DiT)作为骨干网络。DiT-Flow旨在提高模型在多种失真(包括噪声、混响和压缩)下的鲁棒性,通过在由变分自编码器(VAE)导出的紧凑潜在特征上操作来实现。该模型在StillSonicSet数据集上进行了验证,该数据集是一个合成但声学上逼真的数据集,由LibriSpeech、FSD50K、FMA和90个Matterport3D场景组成。实验结果表明,DiT-Flow始终优于最先进的生成式语音增强模型,证明了Flow Matching在多条件语音增强中的有效性。此外,通过将LoRA与MoE框架相结合,DiT-Flow实现了参数高效且高性能的训练,仅使用总参数的4.9%就在五种未见过的失真上获得了更好的性能。

🔬 方法详解

问题定义:语音增强旨在从受噪声、混响、压缩等多种失真影响的语音信号中恢复原始干净语音。现有语音增强模型通常在特定条件下训练,难以泛化到真实场景中复杂多变的失真情况,鲁棒性不足。

核心思路:DiT-Flow的核心思路是利用Flow Matching的强大生成能力,在变分自编码器(VAE)的潜在空间中学习干净语音和失真语音之间的映射关系。通过在低维潜在空间中操作,可以降低计算复杂度,并提高模型的泛化能力。同时,利用扩散Transformer(DiT)作为骨干网络,增强模型对复杂语音特征的建模能力。

技术框架:DiT-Flow框架主要包含以下几个模块:1) 变分自编码器(VAE):用于将原始语音信号编码到低维潜在空间,并从潜在空间解码回语音信号。2) Flow Matching模块:学习潜在空间中干净语音和失真语音之间的连续映射关系。3) 扩散Transformer(DiT):作为Flow Matching模块的骨干网络,用于建模潜在空间中的复杂语音特征。4) LoRA和MoE:用于参数高效的训练,提高模型在多种失真下的鲁棒性。

关键创新:DiT-Flow的关键创新在于将Flow Matching应用于语音增强任务,并结合扩散Transformer作为骨干网络。Flow Matching能够学习连续的映射关系,避免了传统生成模型中的模式崩塌问题。此外,通过在VAE的潜在空间中操作,可以降低计算复杂度,并提高模型的泛化能力。LoRA和MoE的结合进一步提升了模型在多种失真下的鲁棒性,同时保持了参数效率。

关键设计:DiT-Flow的关键设计包括:1) 使用变分自编码器(VAE)进行特征提取,将高维语音信号映射到低维潜在空间。2) 采用Flow Matching损失函数,鼓励模型学习干净语音和失真语音之间的连续映射关系。3) 使用扩散Transformer(DiT)作为Flow Matching模块的骨干网络,增强模型对复杂语音特征的建模能力。4) 结合LoRA和MoE框架,实现参数高效的训练,并提高模型在多种失真下的鲁棒性。具体而言,LoRA用于微调DiT模型,MoE用于处理不同类型的失真。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DiT-Flow在StillSonicSet数据集上优于现有的生成式语音增强模型。通过将LoRA与MoE框架相结合,DiT-Flow仅使用总参数的4.9%就在五种未见过的失真上获得了更好的性能。这些结果证明了Flow Matching在多条件语音增强中的有效性,以及DiT-Flow在提高语音增强鲁棒性方面的潜力。

🎯 应用场景

DiT-Flow在语音通信、语音识别、助听器等领域具有广泛的应用前景。它可以用于提高嘈杂环境下的语音质量,提升语音识别系统的准确率,并改善听力受损人士的听觉体验。该研究的成果有助于推动语音增强技术的发展,并为相关应用提供更可靠的解决方案。

📄 摘要(原文)

Recent advances in generative models, such as diffusion and flow matching, have shown strong performance in audio tasks. However, speech enhancement (SE) models are typically trained on limited datasets and evaluated under narrow conditions, limiting real-world applicability. To address this, we propose DiT-Flow, a flow matching-based SE framework built on the latent Diffusion Transformer (DiT) backbone and trained for robustness across diverse distortions, including noise, reverberation, and compression. DiT-Flow operates on compact variational auto-encoders (VAEs)-derived latent features. We validated our approach on StillSonicSet, a synthetic yet acoustically realistic dataset composed of LibriSpeech, FSD50K, FMA, and 90 Matterport3D scenes. Experiments show that DiT-Flow consistently outperforms state-of-the-art generative SE models, demonstrating the effectiveness of flow matching in multi-condition speech enhancement. Despite ongoing efforts to expand synthetic data realism, a persistent bottleneck in SE is the inevitable mismatch between training and deployment conditions. By integrating LoRA with the MoE framework, we achieve both parameter-efficient and high-performance training for DiT-Flow robust to multiple distortions with using 4.9% percentage of the total parameters to obtain a better performance on five unseen distortions.