BiFormer3D: Grid-Free Time-Domain Reconstruction of Head-Related Impulse Responses with a Spatially Encoded Transformer

作者: Shaoheng Xu, Chunyi Sun, Jihui Zhang, Amy Bastine, Prasanga N. Samarasinghe, Thushara D. Abhayapala, Hongdong Li

分类: eess.AS, cs.LG

发布日期: 2026-03-30

备注: The paper was submitted for review to Interspeech 2026

💡 一句话要点

BiFormer3D：利用空间编码Transformer进行头部相关脉冲响应的时域重建

🎯 匹配领域: 支柱八：物理动画 (Physics-based Animation)

关键词: 头部相关脉冲响应 HRIR重建 Transformer 空间编码 时域建模

📋 核心要点

现有HRIR空间上采样方法通常在频域操作，依赖最小相位假设或分离的时间模型，并使用固定方向网格，限制了时间保真度和空间连续性。
BiFormer3D通过空间编码Transformer在时域直接重建HRIR，避免了频域转换和固定网格的限制，提升了重建精度和空间平滑性。
实验结果表明，BiFormer3D在SONICOM数据集上显著优于现有方法，并在NMSE、余弦距离和ITD/ILD误差等指标上取得了提升。

📝 摘要（中文）

本文提出BiFormer3D，一种时域、无网格的双耳Transformer，用于从稀疏输入重建任意方向的头部相关脉冲响应(HRIR)。该方法使用正弦空间特征、Conv1D细化模块以及辅助的耳间时间差(ITD)和耳间声级差(ILD)预测头。在SONICOM数据集上，BiFormer3D在归一化均方误差(NMSE)、余弦距离以及ITD/ILD误差方面均优于现有方法。消融实验验证了各个模块的有效性，并表明最小相位预处理是不必要的。

🔬 方法详解

问题定义：HRIR个性化测量成本高昂，需要从稀疏的HRIR测量值中预测目标方向的HRIR。现有方法通常在频域进行，依赖最小相位假设，或者将时间和幅度信息分离建模，同时使用固定的方向网格，导致时间精度和空间连续性下降。

核心思路：BiFormer3D的核心思路是利用Transformer强大的序列建模能力，直接在时域对HRIR进行重建，避免频域转换带来的信息损失。通过空间编码，将目标方向信息融入到Transformer的输入中，实现无网格的HRIR重建。

技术框架：BiFormer3D的整体架构包括以下几个主要模块：1) 空间特征编码模块：使用正弦函数对目标方向进行编码，生成空间特征向量。2) Transformer编码器：将稀疏HRIR测量值和空间特征向量输入到Transformer编码器中，学习HRIR和空间位置之间的关系。3) Conv1D细化模块：使用一维卷积网络对Transformer的输出进行细化，提升HRIR的时间分辨率。4) 辅助ITD/ILD预测头：增加ITD和ILD预测分支，作为辅助任务，提升模型的泛化能力。

关键创新：BiFormer3D的关键创新在于：1) 时域重建：直接在时域重建HRIR，避免了频域转换带来的信息损失。2) 无网格重建：通过空间编码，实现任意方向的HRIR重建，避免了固定网格的限制。3) 空间编码Transformer：将空间信息融入到Transformer中，提升了模型的空间建模能力。

关键设计：BiFormer3D的关键设计包括：1) 正弦空间特征编码：使用不同频率的正弦函数对空间位置进行编码，能够有效地表示空间信息。2) Conv1D细化模块：使用较小的卷积核，在时间维度上进行细化，提升HRIR的时间分辨率。3) 辅助ITD/ILD预测头：使用L1损失函数对ITD和ILD进行约束，提升模型的泛化能力。

🖼️ 关键图片

📊 实验亮点

在SONICOM数据集上，BiFormer3D在NMSE、余弦距离以及ITD/ILD误差方面均优于现有方法。例如，在NMSE指标上，BiFormer3D相比于基线方法取得了显著的提升。消融实验验证了各个模块的有效性，并表明最小相位预处理是不必要的。

🎯 应用场景

BiFormer3D可应用于虚拟现实、增强现实、游戏、音频会议等领域，通过个性化的HRIR重建，提升用户的沉浸式听觉体验。该研究能够降低HRIR测量的成本，使得个性化音频渲染技术能够更广泛地应用。

📄 摘要（原文）

Individualized head-related impulse responses (HRIRs) enable binaural rendering, but dense per-listener measurements are costly. We address HRIR spatial up-sampling from sparse per-listener measurements: given a few measured HRIRs for a listener, predict HRIRs at unmeasured target directions. Prior learning methods often work in the frequency domain, rely on minimum-phase assumptions or separate timing models, and use a fixed direction grid, which can degrade temporal fidelity and spatial continuity. We propose BiFormer3D, a time-domain, grid-free binaural Transformer for reconstructing HRIRs at arbitrary directions from sparse inputs. It uses sinusoidal spatial features, a Conv1D refinement module, and auxiliary interaural time difference (ITD) and interaural level difference (ILD) heads. On SONICOM, it improves normalized mean squared error (NMSE), cosine distance, and ITD/ILD errors over prior methods; ablations validate modules and show minimum-phase pre-processing is unnecessary.

BiFormer3D: Grid-Free Time-Domain Reconstruction of Head-Related Impulse Responses with a Spatially Encoded Transformer

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理