MB-RIRs: a Synthetic Room Impulse Response Dataset with Frequency-Dependent Absorption Coefficients

📄 arXiv: 2507.09750v1 📥 PDF

作者: Enric Gusó, Joanna Luberadzka, Umut Sayin, Xavier Serra

分类: cs.SD, cs.LG, eess.AS

发布日期: 2025-07-13

备注: Accepted to WASPAA25


💡 一句话要点

提出基于多频带吸收系数的合成房间脉冲响应数据集MB-RIRs,提升单声道语音增强效果。

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 房间脉冲响应 语音增强 多频带吸收系数 合成数据集 深度学习

📋 核心要点

  1. 现有合成RIR数据集在生态有效性方面存在不足,限制了其在真实场景下的语音增强效果。
  2. 论文提出MB-RIRs数据集,通过引入多频带吸收系数等特性,更真实地模拟房间声学环境。
  3. 实验表明,使用MB-RIRs训练的模型在真实RIR测试集上表现显著提升,客观和主观指标均优于其他方法。

📝 摘要(中文)

本文研究了四种策略,旨在提高用于单声道语音增强(SE)的合成房间脉冲响应(RIR)数据集的生态有效性。在传统的基于镜像源方法(ISM)的鞋盒RIR基础上,实现了三个特性:多频带吸收系数、声源指向性和接收器指向性。此外,还考虑了来自SoundSpaces数据集的基于网格的RIR。然后,针对每个RIR数据集训练了一个DeepFilternet3模型,并在真实RIR的测试集上,从客观和主观两方面评估了性能。结果表明,使用频率相关的声学吸收系数的RIR(MB-RIRs)在真实RIR上评估时,可以获得+0.51dB的SDR和+8.9的MUSHRA评分。MB-RIRs数据集可公开免费下载。

🔬 方法详解

问题定义:论文旨在解决合成房间脉冲响应(RIR)数据集生态有效性不足的问题。现有的基于镜像源方法(ISM)的RIR生成方法,通常采用单一的吸收系数,无法准确模拟真实房间中频率相关的声学吸收特性,导致训练出的语音增强模型在真实场景下泛化能力较差。

核心思路:核心思路是通过引入多频带吸收系数,使合成的RIR更接近真实房间的声学特性。具体来说,将房间表面的吸收系数分解为多个频带,每个频带对应不同的吸收值,从而模拟不同频率声音在房间中的衰减情况。此外,还考虑了声源和接收器的指向性,进一步提升了RIR的真实性。

技术框架:整体框架包括以下几个步骤:1) 基于ISM生成鞋盒房间的RIR;2) 引入多频带吸收系数,为每个频带设置不同的吸收值;3) 考虑声源和接收器的指向性;4) 使用生成的RIR数据集训练DeepFilternet3模型;5) 在真实RIR数据集上评估模型的性能。此外,论文还使用了SoundSpaces数据集中的基于网格的RIR作为对比。

关键创新:最重要的创新点在于引入了多频带吸收系数。与传统的单一吸收系数方法相比,多频带吸收系数能够更准确地模拟真实房间中频率相关的声学吸收特性,从而生成更真实的RIR。这种方法能够显著提高合成RIR数据集的生态有效性,并提升语音增强模型在真实场景下的泛化能力。

关键设计:论文中,多频带吸收系数的具体数值是根据经验和实际测量数据设定的。DeepFilternet3模型是一个深度学习模型,用于语音增强任务。模型的具体结构和参数设置在论文中没有详细描述,但可以参考相关文献。损失函数和训练策略的选择对模型的性能至关重要,但论文中没有明确说明。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,使用MB-RIRs训练的DeepFilternet3模型在真实RIR测试集上取得了显著的性能提升。客观指标方面,SDR(信号失真比)提高了+0.51dB。主观指标方面,MUSHRA(多重刺激隐藏参考和锚定)评分提高了+8.9。这些结果表明,引入多频带吸收系数能够有效提高合成RIR数据集的生态有效性,并提升语音增强模型的性能。

🎯 应用场景

该研究成果可应用于语音增强、语音识别、声学建模等领域。通过使用更真实的合成RIR数据集,可以训练出在真实场景下表现更好的语音处理系统。例如,在嘈杂的会议室环境中,可以使用基于MB-RIRs训练的语音增强模型来提高语音清晰度,提升会议质量。未来,该方法还可以扩展到其他声学场景,如音乐厅、教室等。

📄 摘要(原文)

We investigate the effects of four strategies for improving the ecological validity of synthetic room impulse response (RIR) datasets for monoaural Speech Enhancement (SE). We implement three features on top of the traditional image source method-based (ISM) shoebox RIRs: multiband absorption coefficients, source directivity and receiver directivity. We additionally consider mesh-based RIRs from the SoundSpaces dataset. We then train a DeepFilternet3 model for each RIR dataset and evaluate the performance on a test set of real RIRs both objectively and subjectively. We find that RIRs which use frequency-dependent acoustic absorption coefficients (MB-RIRs) can obtain +0.51dB of SDR and a +8.9 MUSHRA score when evaluated on real RIRs. The MB-RIRs dataset is publicly available for free download.