A Study of the Scale Invariant Signal to Distortion Ratio in Speech Separation with Noisy References

📄 arXiv: 2508.14623v1 📥 PDF

作者: Simon Dahl Jepsen, Mads Græsbøll Christensen, Jesper Rindom Jensen

分类: eess.AS, cs.AI, cs.SD

发布日期: 2025-08-20

备注: Accepted for IEEE ASRU 2025, Workshop on Automatic Speech Recognition and Understanding. Copyright (c) 2025 IEEE. 8 pages, 6 figures, 2 tables


💡 一句话要点

提出SI-SDR以解决带噪语音分离中的评估问题

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 语音分离 SI-SDR 噪声处理 数据增强 模型训练

📋 核心要点

  1. 现有方法在带噪参考情况下,使用SI-SDR进行语音分离评估时存在噪声限制和输出质量下降的问题。
  2. 论文提出通过增强参考和混合数据的方法,旨在训练模型以避免学习带噪参考,从而提高分离效果。
  3. 实验结果表明,经过增强的数据集训练的模型在分离语音中噪声减少,但处理参考可能引入伪影,影响整体质量。

📝 摘要(中文)

本文研究了在带噪参考情况下,使用尺度不变信号失真比(SI-SDR)作为监督语音分离的评估和训练目标的影响。通过对带噪参考的SI-SDR推导,发现噪声限制了可实现的SI-SDR,或导致分离输出中的不必要噪声。为此,提出了一种增强参考和使用WHAM!增强混合数据的方法,旨在训练避免学习噪声参考的模型。对这两种在增强数据集上训练的模型进行了评估,结果显示分离语音中的噪声减少,但处理参考可能引入伪影,限制了整体质量的提升。研究还发现,WSJ0-2Mix和Libri2Mix测试集上SI-SDR与感知噪声之间存在负相关性,进一步验证了推导的结论。

🔬 方法详解

问题定义:本文旨在解决在带噪参考情况下,使用SI-SDR作为评估标准时,噪声对分离效果的限制和输出质量的下降问题。现有方法未能有效处理噪声对SI-SDR的影响。

核心思路:论文提出通过增强训练参考和混合数据的方法,来提高模型的训练质量,避免模型学习到带噪的参考信号,从而提升分离效果。

技术框架:整体架构包括数据增强模块和模型训练阶段。首先对参考信号进行增强,然后使用WHAM!生成混合数据,最后在增强数据集上训练模型。

关键创新:最重要的创新在于提出了一种新的数据增强方法,能够有效减少噪声对SI-SDR的影响,并提高分离语音的质量。这一方法与传统的直接使用带噪参考的训练方式有本质区别。

关键设计:在模型训练中,采用了特定的损失函数来优化SI-SDR,并对网络结构进行了调整,以适应增强后的数据集,确保模型能够有效学习到清晰的语音特征。

📊 实验亮点

实验结果显示,经过增强数据集训练的模型在分离语音中的噪声减少,且在非侵入性NISQA.v2指标下表现优于基线模型。尽管处理参考可能引入伪影,但整体质量提升仍然显著,验证了SI-SDR与感知噪声之间的负相关性。

🎯 应用场景

该研究的潜在应用领域包括语音识别、语音增强和人机交互等场景,能够显著提升在嘈杂环境下的语音分离效果,具有重要的实际价值和广泛的应用前景。未来,该方法可能推动更高效的语音处理技术的发展,改善用户体验。

📄 摘要(原文)

This paper examines the implications of using the Scale-Invariant Signal-to-Distortion Ratio (SI-SDR) as both evaluation and training objective in supervised speech separation, when the training references contain noise, as is the case with the de facto benchmark WSJ0-2Mix. A derivation of the SI-SDR with noisy references reveals that noise limits the achievable SI-SDR, or leads to undesired noise in the separated outputs. To address this, a method is proposed to enhance references and augment the mixtures with WHAM!, aiming to train models that avoid learning noisy references. Two models trained on these enhanced datasets are evaluated with the non-intrusive NISQA.v2 metric. Results show reduced noise in separated speech but suggest that processing references may introduce artefacts, limiting overall quality gains. Negative correlation is found between SI-SDR and perceived noisiness across models on the WSJ0-2Mix and Libri2Mix test sets, underlining the conclusion from the derivation.