Learning Robust Spatial Representations from Binaural Audio through Feature Distillation

📄 arXiv: 2508.20914v1 📥 PDF

作者: Holger Severin Bovbjerg, Jan Østergaard, Jesper Jensen, Shinji Watanabe, Zheng-Hua Tan

分类: cs.SD, cs.LG, eess.AS

发布日期: 2025-08-28

备注: To appear in Proc. WASPAA 2025, October 12-15, 2025, Tahoe, US. Copyright (c) 2025 IEEE. 5 pages, 2 figures, 2 tables


💡 一句话要点

提出基于特征蒸馏的预训练方法,提升双耳音频空间表征的鲁棒性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 双耳音频 空间表征 特征蒸馏 预训练 到达方向估计 鲁棒性 深度学习

📋 核心要点

  1. 深度学习在音频任务中表现出色,但在多通道音频空间表征学习方面仍有探索空间。
  2. 利用特征蒸馏进行预训练,从干净双耳语音中提取空间特征作为标签,指导带噪语音学习鲁棒表征。
  3. 实验表明,该方法在噪声和混响环境下,能有效提升到达方向估计的准确性,优于传统方法。

📝 摘要(中文)

本文研究了深度表征学习在多通道音频空间表征学习中的应用。提出了一种基于特征蒸馏的预训练方法,用于学习双耳语音的鲁棒空间表征,无需数据标签。该框架首先从干净的双耳语音样本中计算空间特征,作为预测标签。然后,利用神经网络从相应的增强语音中预测这些干净特征。预训练后,丢弃空间特征预测器,并使用学习到的编码器权重初始化一个DoA(到达方向)估计模型,并对其进行微调。实验结果表明,与完全监督模型和经典信号处理方法相比,经过到达方向估计微调后,预训练模型在噪声和混响环境中表现出更好的性能。

🔬 方法详解

问题定义:论文旨在解决在噪声和混响环境下,双耳音频的到达方向(DoA)估计问题。现有的方法,如传统信号处理方法,在复杂声学环境中性能下降明显。而完全监督的深度学习方法需要大量的标注数据,成本较高。

核心思路:论文的核心思路是利用特征蒸馏进行预训练,从而学习到对噪声和混响具有鲁棒性的空间表征。通过让模型学习从带噪语音中预测干净语音的空间特征,可以使模型关注于语音中的空间信息,而忽略噪声和混响的影响。

技术框架:整体框架分为两个阶段:预训练阶段和微调阶段。在预训练阶段,首先从干净的双耳语音中提取空间特征(例如,耳间时间差ITD和耳间强度差IID),作为“教师”信号。然后,使用一个神经网络(编码器-预测器结构)从增强(加噪、混响)的双耳语音中预测这些空间特征。在微调阶段,丢弃预训练阶段的预测器,保留编码器,并使用其权重初始化一个DoA估计模型,然后使用标注的DoA数据进行微调。

关键创新:该方法的主要创新在于利用特征蒸馏进行无监督的预训练,从而学习到鲁棒的空间表征。与传统的监督学习方法相比,该方法不需要大量的标注数据,降低了训练成本。与传统的信号处理方法相比,该方法能够更好地处理噪声和混响环境。

关键设计:空间特征的提取方式(ITD/IID),预训练阶段的损失函数(例如,均方误差MSE),编码器的网络结构(例如,卷积神经网络CNN或循环神经网络RNN),以及微调阶段的DoA估计模型的网络结构,都是关键的设计细节。论文可能使用了特定的数据增强策略来提高模型的鲁棒性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,经过预训练和微调的模型在噪声和混响环境下,DoA估计的准确率显著提高。与完全监督的模型和经典的信号处理方法相比,该方法在各种噪声水平和混响时间下都取得了更好的性能。具体的性能提升数据(例如,均方误差降低百分比或准确率提高百分比)需要在论文中查找。

🎯 应用场景

该研究成果可应用于智能助听器、语音会议系统、机器人听觉等领域。通过提高在复杂声学环境下的声源定位精度,可以提升这些设备的用户体验和性能。未来,该技术有望进一步扩展到多声源定位、语音分离等更复杂的场景。

📄 摘要(原文)

Recently, deep representation learning has shown strong performance in multiple audio tasks. However, its use for learning spatial representations from multichannel audio is underexplored. We investigate the use of a pretraining stage based on feature distillation to learn a robust spatial representation of binaural speech without the need for data labels. In this framework, spatial features are computed from clean binaural speech samples to form prediction labels. These clean features are then predicted from corresponding augmented speech using a neural network. After pretraining, we throw away the spatial feature predictor and use the learned encoder weights to initialize a DoA estimation model which we fine-tune for DoA estimation. Our experiments demonstrate that the pretrained models show improved performance in noisy and reverberant environments after fine-tuning for direction-of-arrival estimation, when compared to fully supervised models and classic signal processing methods.