BUDDy: Single-Channel Blind Unsupervised Dereverberation with Diffusion Models

📄 arXiv: 2405.04272v1 📥 PDF

作者: Eloi Moliner, Jean-Marie Lemercier, Simon Welker, Timo Gerkmann, Vesa Välimäki

分类: eess.AS, cs.LG, cs.SD

发布日期: 2024-05-07

备注: Submitted to IWAENC 2024


💡 一句话要点

提出基于扩散模型的单通道盲源解混响方法BUDDy

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 盲源解混响 扩散模型 无监督学习 单通道语音 房间脉冲响应估计

📋 核心要点

  1. 现有盲源解混响方法在复杂声学环境下表现不佳,且依赖大量有监督数据或先验知识。
  2. BUDDy利用扩散模型强大的生成能力,结合测量一致性准则,在无监督条件下实现高质量解混响。
  3. 实验表明,该方法显著优于现有无监督方法,且对未见声学环境具有更强的鲁棒性。

📝 摘要(中文)

本文提出了一种基于扩散模型后验采样的无监督单通道盲源解混响和房间脉冲响应估计联合方法。该方法使用滤波器参数化混响算子,该滤波器对每个频率子带具有指数衰减,并在语音随着反向扩散轨迹细化时迭代估计相应的参数。测量一致性准则保证了生成语音与混响测量的保真度,而无条件扩散模型则实现了干净语音生成的强先验。在没有任何房间脉冲响应知识或耦合混响-消声数据的情况下,我们可以在各种声学场景中成功执行解混响。我们的方法显著优于以前的盲源无监督基线,并且我们证明了与盲源监督方法相比,它对未见声学条件的鲁棒性更高。音频样本和代码已在线提供。

🔬 方法详解

问题定义:论文旨在解决单通道盲源解混响问题,即在未知房间脉冲响应(RIR)和干净语音的情况下,从混响语音中恢复干净语音。现有方法通常需要大量的配对混响-消声数据进行训练,或者依赖于对RIR的强先验假设,这限制了它们在实际复杂声学环境中的应用。

核心思路:论文的核心思路是利用扩散模型强大的生成能力,将解混响问题转化为一个后验采样问题。通过扩散模型学习干净语音的先验分布,并结合混响语音的观测信息,迭代地生成干净语音的估计。同时,通过估计混响算子的参数,实现盲源解混响。

技术框架:BUDDy的整体框架包括以下几个主要模块:1) 混响算子参数化:使用一个滤波器对混响算子进行参数化,该滤波器对每个频率子带具有指数衰减。2) 扩散模型:使用一个无条件扩散模型学习干净语音的先验分布。3) 反向扩散过程:通过反向扩散过程,迭代地生成干净语音的估计。4) 测量一致性准则:使用测量一致性准则来保证生成语音与混响语音的一致性。5) 参数估计:在反向扩散过程中,迭代地估计混响算子的参数。

关键创新:该方法最重要的技术创新点在于将扩散模型应用于盲源解混响问题,并结合测量一致性准则,实现了在无监督条件下的高质量解混响。与现有方法相比,该方法不需要配对的混响-消声数据,也不需要对RIR进行强先验假设,因此具有更强的泛化能力。

关键设计:论文的关键设计包括:1) 使用指数衰减滤波器参数化混响算子,简化了RIR的估计。2) 使用无条件扩散模型学习干净语音的先验分布,避免了对干净语音的强先验假设。3) 使用测量一致性准则来保证生成语音与混响语音的一致性,提高了生成语音的质量。4) 迭代地估计混响算子的参数,实现了盲源解混响。

🖼️ 关键图片

fig_0
img_1
img_2

📊 实验亮点

实验结果表明,BUDDy在各种声学场景中均能有效进行解混响,显著优于之前的无监督盲源解混响方法。与现有方法相比,BUDDy在客观指标(如信号噪声比)上取得了显著提升,并且对未见声学条件具有更强的鲁棒性,表明其具有更强的泛化能力。

🎯 应用场景

该研究成果可应用于语音识别、语音通信、助听器等领域,提高这些系统在混响环境下的性能和用户体验。例如,在嘈杂的会议室中,该方法可以用于提高语音识别的准确率;在语音通信中,可以用于提高通话质量;在助听器中,可以用于提高听力障碍人士的听觉体验。未来,该技术有望在智能家居、智能安防等领域发挥更大的作用。

📄 摘要(原文)

In this paper, we present an unsupervised single-channel method for joint blind dereverberation and room impulse response estimation, based on posterior sampling with diffusion models. We parameterize the reverberation operator using a filter with exponential decay for each frequency subband, and iteratively estimate the corresponding parameters as the speech utterance gets refined along the reverse diffusion trajectory. A measurement consistency criterion enforces the fidelity of the generated speech with the reverberant measurement, while an unconditional diffusion model implements a strong prior for clean speech generation. Without any knowledge of the room impulse response nor any coupled reverberant-anechoic data, we can successfully perform dereverberation in various acoustic scenarios. Our method significantly outperforms previous blind unsupervised baselines, and we demonstrate its increased robustness to unseen acoustic conditions in comparison to blind supervised methods. Audio samples and code are available online.