Unsupervised Blind Joint Dereverberation and Room Acoustics Estimation with Diffusion Models

📄 arXiv: 2408.07472v2 📥 PDF

作者: Jean-Marie Lemercier, Eloi Moliner, Simon Welker, Vesa Välimäki, Timo Gerkmann

分类: eess.AS, cs.LG, cs.SD

发布日期: 2024-08-14 (更新: 2025-03-25)

备注: Submitted to IEEE/ACM Transactions on Audio, Speech and Language Processing


💡 一句话要点

提出基于扩散模型的无监督盲解混响与房间声学估计方法BUDDy

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 盲解混响 房间脉冲响应估计 扩散模型 无监督学习 贝叶斯后验采样

📋 核心要点

  1. 现有监督解混响方法泛化性差,无监督方法性能不足,难以适应复杂声学环境。
  2. BUDDy基于贝叶斯后验采样,结合似然模型和扩散模型先验,联合估计RIR和解混响语音。
  3. 实验表明,BUDDy在各种声学场景下显著优于其他无监督基线,并能适应高分辨率歌声解混响。

📝 摘要(中文)

本文提出了一种用于单通道盲解混响和房间脉冲响应(RIR)估计的无监督方法,名为BUDDy。该算法基于贝叶斯后验采样:它结合了一个强制保真于混响测量的似然模型,以及一个由无条件扩散模型实现的无回声语音先验。我们设计了一个参数化滤波器来表示RIR,每个频率子带具有指数衰减。房间声学估计和语音解混响是联合进行的,因为滤波器参数被迭代估计,并且语音话语沿着反向扩散轨迹被细化。在RIR未知的情况下,BUDDy在各种声学场景中成功地执行了语音解混响,显著优于其他盲无监督基线。与通常难以泛化的监督方法不同,BUDDy可以无缝地适应不同的声学条件。本文通过提供新的实验结果和对算法多功能性的见解,扩展了我们之前的工作。我们证明了我们提出的方法对新的声学和说话人条件的鲁棒性,以及它对高分辨率歌声解混响的适应性,使用了工具指标和主观听觉评估。我们研究了BUDDy在RIR估计方面的性能,并观察到它在不匹配的声学条件下超过了最先进的基于DNN的监督估计器。最后,我们研究了知情解混响方法对RIR估计误差的敏感性,从而激发了联合声学估计和解混响设计。音频示例和代码可以在网上找到。

🔬 方法详解

问题定义:论文旨在解决单通道语音的盲解混响问题,即在未知房间脉冲响应(RIR)的情况下,从混响语音中恢复原始清晰的语音。现有方法,特别是监督学习方法,在训练数据与测试数据声学环境不匹配时,泛化能力较差。无监督方法虽然不需要训练数据,但通常性能不如监督方法。

核心思路:论文的核心思路是将解混响问题建模为贝叶斯后验采样问题。通过结合一个似然模型(保证解混响后的语音与观测到的混响语音一致)和一个语音先验(使用扩散模型学习清晰语音的分布),可以在没有清晰语音训练数据的情况下,估计RIR和解混响语音。这种方法的核心在于利用扩散模型强大的生成能力来提供清晰语音的先验信息。

技术框架:BUDDy算法的整体框架如下: 1. 初始化:随机初始化RIR参数。 2. 迭代优化: a. 语音解混响:使用当前的RIR参数,通过反向扩散过程从噪声中生成解混响语音。 b. RIR估计:根据解混响语音和观测到的混响语音,更新RIR参数。 3. 重复步骤2,直到收敛。

关键创新:该方法最重要的创新点在于将扩散模型引入到无监督盲解混响问题中,并将其与贝叶斯后验采样框架相结合。与传统方法相比,BUDDy不需要清晰语音的训练数据,并且能够利用扩散模型学习到的强大的语音先验知识。此外,联合估计RIR和解混响语音的设计,使得算法能够更好地适应不同的声学环境。

关键设计: * RIR参数化:使用参数化滤波器表示RIR,每个频率子带具有指数衰减,降低了RIR估计的复杂度。 * 扩散模型:使用无条件扩散模型作为语音先验,引导解混响过程。 * 损失函数:似然模型采用最小二乘误差,保证解混响后的语音与观测到的混响语音一致。 * 迭代优化:交替优化RIR参数和解混响语音,直到收敛。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,BUDDy在各种声学场景中显著优于其他无监督盲解混响基线方法。在不匹配的声学条件下,BUDDy甚至超过了最先进的基于DNN的监督RIR估计器。此外,该方法在高分辨率歌声解混响任务中也表现出良好的性能,并通过主观听觉评估验证了其有效性。

🎯 应用场景

该研究成果可应用于语音通信、语音识别、助听器等领域,提高在混响环境下的语音质量和可懂度。尤其在会议系统、智能家居等场景下,能够有效改善语音交互体验。未来,该技术有望进一步发展,应用于更复杂的声学环境和多通道语音处理。

📄 摘要(原文)

This paper presents an unsupervised method for single-channel blind dereverberation and room impulse response (RIR) estimation, called BUDDy. The algorithm is rooted in Bayesian posterior sampling: it combines a likelihood model enforcing fidelity to the reverberant measurement, and an anechoic speech prior implemented by an unconditional diffusion model. We design a parametric filter representing the RIR, with exponential decay for each frequency subband. Room acoustics estimation and speech dereverberation are jointly carried out, as the filter parameters are iteratively estimated and the speech utterance refined along the reverse diffusion trajectory. In a blind scenario where the RIR is unknown, BUDDy successfully performs speech dereverberation in various acoustic scenarios, significantly outperforming other blind unsupervised baselines. Unlike supervised methods, which often struggle to generalize, BUDDy seamlessly adapts to different acoustic conditions. This paper extends our previous work by offering new experimental results and insights into the algorithm's versatility. We demonstrate the robustness of our proposed method to new acoustic and speaker conditions, as well as its adaptability to high-resolution singing voice dereverberation, using both instrumental metrics and subjective listening evaluation. We study BUDDy's performance for RIR estimation and observe it surpasses a state-of-the-art supervised DNN-based estimator on mismatched acoustic conditions. Finally, we investigate the sensitivity of informed dereverberation methods to RIR estimation errors, thereby motivating the joint acoustic estimation and dereverberation design. Audio examples and code can be found online.