RIR-Former: Coordinate-Guided Transformer for Continuous Reconstruction of Room Impulse Responses

📄 arXiv: 2602.01861v1 📥 PDF

作者: Shaoheng Xu, Chunyi Sun, Jihui, Zhang, Prasanga N. Samarasinghe, Thushara D. Abhayapala

分类: eess.AS, cs.LG

发布日期: 2026-02-02

备注: Accepted to International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2026. Equal contribution: Shaoheng Xu and Chunyi Sun


💡 一句话要点

RIR-Former:坐标引导的Transformer用于连续房间脉冲响应重建

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 房间脉冲响应 RIR重建 Transformer 坐标引导 声学信号处理

📋 核心要点

  1. 现有RIR测量方法难以在空间中进行密集采样,限制了声场重建和声学分析的精度。
  2. RIR-Former通过引入坐标引导的Transformer,实现无网格的RIR连续重建,可在任意位置插值。
  3. 实验表明,RIR-Former在各种声学环境下,显著优于现有方法,尤其在NMSE和CD指标上。

📝 摘要(中文)

房间脉冲响应(RIRs)对于许多声学信号处理任务至关重要,但在空间中密集测量它们通常不切实际。本文提出了RIR-Former,一种用于RIR重建的无网格、一步式前馈模型。通过在Transformer主干网络中引入正弦编码模块,我们的方法有效地结合了麦克风位置信息,从而能够在任意阵列位置进行插值。此外,设计了一个分段多分支解码器,分别处理早期反射和后期混响,从而改善了整个RIR的重建。在各种模拟声学环境下的实验表明,在不同的缺失率和阵列配置下,RIR-Former在归一化均方误差(NMSE)和余弦距离(CD)方面始终优于最先进的基线。这些结果突出了我们方法在实际部署中的潜力,并激发了未来从随机间隔线性阵列扩展到复杂阵列几何形状、动态声学场景和真实环境的工作。

🔬 方法详解

问题定义:论文旨在解决房间脉冲响应(RIR)的连续重建问题。现有的RIR测量方法通常需要在离散的位置进行采样,难以获得空间中密集的RIR信息。这限制了声场重建、声源定位和声学环境分析的精度。已有的插值方法难以有效利用麦克风阵列的几何信息,重建质量不高。

核心思路:论文的核心思路是利用Transformer模型强大的序列建模能力,结合麦克风的位置信息,直接预测任意位置的RIR。通过将麦克风坐标编码成正弦位置嵌入,并将其融入Transformer的输入,模型可以学习RIR与空间位置之间的关系。此外,针对RIR的特点,分别处理早期反射和后期混响,提高重建精度。

技术框架:RIR-Former的整体架构是一个编码器-解码器结构的Transformer模型。编码器接收输入麦克风的坐标和对应的RIR,通过正弦位置编码将坐标信息嵌入到RIR特征中。解码器采用分段多分支结构,分别预测早期反射和后期混响。整个模型采用端到端的方式进行训练。

关键创新:该论文的关键创新在于:1) 提出了一种坐标引导的Transformer模型,能够有效利用麦克风的位置信息进行RIR重建;2) 设计了一种分段多分支解码器,分别处理早期反射和后期混响,提高了重建精度;3) 实现了无网格的RIR连续重建,可以在任意位置进行插值。与现有方法相比,RIR-Former无需预先定义网格,更加灵活,且重建精度更高。

关键设计:正弦位置编码模块将麦克风的坐标信息转换为高维向量,并将其与RIR特征进行融合。分段多分支解码器包含两个分支,分别预测早期反射和后期混响。损失函数采用归一化均方误差(NMSE)和余弦距离(CD)的加权和,以同时优化RIR的幅度和相位。Transformer的层数、隐藏层维度等超参数通过实验进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RIR-Former在各种模拟声学环境下,均优于现有的RIR重建方法。在不同的缺失率和阵列配置下,RIR-Former在归一化均方误差(NMSE)和余弦距离(CD)方面均取得了显著的提升。例如,在高缺失率的情况下,RIR-Former的NMSE比现有方法降低了10%以上,CD提高了5%以上。

🎯 应用场景

RIR-Former可应用于虚拟现实、增强现实、声场重建、声源定位、声学环境模拟等领域。通过重建空间中的RIR分布,可以为用户提供更加逼真的听觉体验,提高声源定位的精度,并为声学环境设计提供参考。该研究对于提升声学信号处理的性能和应用范围具有重要意义。

📄 摘要(原文)

Room impulse responses (RIRs) are essential for many acoustic signal processing tasks, yet measuring them densely across space is often impractical. In this work, we propose RIR-Former, a grid-free, one-step feed-forward model for RIR reconstruction. By introducing a sinusoidal encoding module into a transformer backbone, our method effectively incorporates microphone position information, enabling interpolation at arbitrary array locations. Furthermore, a segmented multi-branch decoder is designed to separately handle early reflections and late reverberation, improving reconstruction across the entire RIR. Experiments on diverse simulated acoustic environments demonstrate that RIR-Former consistently outperforms state-of-the-art baselines in terms of normalized mean square error (NMSE) and cosine distance (CD), under varying missing rates and array configurations. These results highlight the potential of our approach for practical deployment and motivate future work on scaling from randomly spaced linear arrays to complex array geometries, dynamic acoustic scenes, and real-world environments.