BiFormer3D: Grid-Free Time-Domain Reconstruction of Head-Related Impulse Responses with a Spatially Encoded Transformer
作者: Shaoheng Xu, Chunyi Sun, Jihui Zhang, Amy Bastine, Prasanga N. Samarasinghe, Thushara D. Abhayapala, Hongdong Li
分类: eess.AS, cs.LG
发布日期: 2026-03-30
备注: The paper was submitted for review to Interspeech 2026
💡 一句话要点
BiFormer3D:利用空间编码Transformer进行头部相关脉冲响应的时域重建
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 头部相关脉冲响应 HRIR重建 Transformer 空间编码 时域建模
📋 核心要点
- 现有HRIR空间上采样方法通常在频域操作,依赖最小相位假设或分离的时间模型,并使用固定方向网格,限制了时间保真度和空间连续性。
- BiFormer3D通过空间编码Transformer在时域直接重建HRIR,避免了频域转换和固定网格的限制,提升了重建精度和空间平滑性。
- 实验结果表明,BiFormer3D在SONICOM数据集上显著优于现有方法,并在NMSE、余弦距离和ITD/ILD误差等指标上取得了提升。
📝 摘要(中文)
本文提出BiFormer3D,一种时域、无网格的双耳Transformer,用于从稀疏输入重建任意方向的头部相关脉冲响应(HRIR)。该方法使用正弦空间特征、Conv1D细化模块以及辅助的耳间时间差(ITD)和耳间声级差(ILD)预测头。在SONICOM数据集上,BiFormer3D在归一化均方误差(NMSE)、余弦距离以及ITD/ILD误差方面均优于现有方法。消融实验验证了各个模块的有效性,并表明最小相位预处理是不必要的。
🔬 方法详解
问题定义:HRIR个性化测量成本高昂,需要从稀疏的HRIR测量值中预测目标方向的HRIR。现有方法通常在频域进行,依赖最小相位假设,或者将时间和幅度信息分离建模,同时使用固定的方向网格,导致时间精度和空间连续性下降。
核心思路:BiFormer3D的核心思路是利用Transformer强大的序列建模能力,直接在时域对HRIR进行重建,避免频域转换带来的信息损失。通过空间编码,将目标方向信息融入到Transformer的输入中,实现无网格的HRIR重建。
技术框架:BiFormer3D的整体架构包括以下几个主要模块:1) 空间特征编码模块:使用正弦函数对目标方向进行编码,生成空间特征向量。2) Transformer编码器:将稀疏HRIR测量值和空间特征向量输入到Transformer编码器中,学习HRIR和空间位置之间的关系。3) Conv1D细化模块:使用一维卷积网络对Transformer的输出进行细化,提升HRIR的时间分辨率。4) 辅助ITD/ILD预测头:增加ITD和ILD预测分支,作为辅助任务,提升模型的泛化能力。
关键创新:BiFormer3D的关键创新在于:1) 时域重建:直接在时域重建HRIR,避免了频域转换带来的信息损失。2) 无网格重建:通过空间编码,实现任意方向的HRIR重建,避免了固定网格的限制。3) 空间编码Transformer:将空间信息融入到Transformer中,提升了模型的空间建模能力。
关键设计:BiFormer3D的关键设计包括:1) 正弦空间特征编码:使用不同频率的正弦函数对空间位置进行编码,能够有效地表示空间信息。2) Conv1D细化模块:使用较小的卷积核,在时间维度上进行细化,提升HRIR的时间分辨率。3) 辅助ITD/ILD预测头:使用L1损失函数对ITD和ILD进行约束,提升模型的泛化能力。
🖼️ 关键图片
📊 实验亮点
在SONICOM数据集上,BiFormer3D在NMSE、余弦距离以及ITD/ILD误差方面均优于现有方法。例如,在NMSE指标上,BiFormer3D相比于基线方法取得了显著的提升。消融实验验证了各个模块的有效性,并表明最小相位预处理是不必要的。
🎯 应用场景
BiFormer3D可应用于虚拟现实、增强现实、游戏、音频会议等领域,通过个性化的HRIR重建,提升用户的沉浸式听觉体验。该研究能够降低HRIR测量的成本,使得个性化音频渲染技术能够更广泛地应用。
📄 摘要(原文)
Individualized head-related impulse responses (HRIRs) enable binaural rendering, but dense per-listener measurements are costly. We address HRIR spatial up-sampling from sparse per-listener measurements: given a few measured HRIRs for a listener, predict HRIRs at unmeasured target directions. Prior learning methods often work in the frequency domain, rely on minimum-phase assumptions or separate timing models, and use a fixed direction grid, which can degrade temporal fidelity and spatial continuity. We propose BiFormer3D, a time-domain, grid-free binaural Transformer for reconstructing HRIRs at arbitrary directions from sparse inputs. It uses sinusoidal spatial features, a Conv1D refinement module, and auxiliary interaural time difference (ITD) and interaural level difference (ILD) heads. On SONICOM, it improves normalized mean squared error (NMSE), cosine distance, and ITD/ILD errors over prior methods; ablations validate modules and show minimum-phase pre-processing is unnecessary.