wav2pos: Sound Source Localization using Masked Autoencoders

📄 arXiv: 2408.15771v1 📥 PDF

作者: Axel Berg, Jens Gulin, Mark O'Connor, Chuteng Zhou, Karl Åström, Magnus Oskarsson

分类: eess.AS, cs.LG, cs.SD

发布日期: 2024-08-28

备注: IPIN 2024

DOI: 10.1109/IPIN62893.2024.10786105


💡 一句话要点

提出wav2pos,使用掩码自编码器解决分布式麦克风阵列的3D声源定位问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 声源定位 分布式麦克风阵列 掩码自编码器 集合到集合回归 多模态学习

📋 核心要点

  1. 现有声源定位方法在处理分布式麦克风阵列时,对麦克风数量和位置敏感,缺乏灵活性。
  2. wav2pos方法将声源定位问题转化为集合到集合的回归,利用掩码自编码器重建坐标,实现灵活的定位。
  3. 实验表明,该方法在模拟和真实环境中均表现出与传统方法和学习方法相比具有竞争力的定位性能。

📝 摘要(中文)

本文提出了一种针对分布式ad-hoc麦克风阵列的3D声源定位新方法,将其建模为一个集合到集合的回归问题。通过训练一个多模态掩码自编码器模型,该模型处理音频记录和麦克风坐标,我们证明了这种建模方式可以通过重建输入中被掩盖的坐标来实现对声源的精确定位。我们的方法具有灵活性,因为单个模型可以用于任意数量的麦克风,即使缺少部分音频记录和麦克风坐标。我们在室内环境中对音乐和语音的模拟和真实录音进行了测试,并证明了与经典方法和其他基于学习的定位方法相比,该方法具有竞争力的性能。

🔬 方法详解

问题定义:论文旨在解决分布式ad-hoc麦克风阵列的3D声源定位问题。现有方法通常依赖于特定的麦克风阵列配置,当麦克风数量变化或部分麦克风数据缺失时,性能会显著下降。此外,传统方法在复杂声学环境中表现不佳,而现有的基于学习的方法也难以处理任意数量的麦克风和数据缺失的情况。

核心思路:论文的核心思路是将声源定位问题视为一个集合到集合的回归问题,即输入是麦克风阵列的音频数据和坐标集合,输出是声源的3D坐标。通过训练一个能够从部分信息中推断完整信息的模型,可以实现对任意数量麦克风和数据缺失情况的鲁棒定位。掩码自编码器(Masked Autoencoder, MAE)能够有效地学习数据的潜在表示,并从部分观测中重建完整数据,因此被选为核心模型。

技术框架:整体框架包含以下几个主要步骤:1) 数据预处理:对音频数据进行特征提取,例如短时傅里叶变换(STFT)。2) 输入编码:将音频特征和麦克风坐标输入到多模态掩码自编码器中。3) 掩码操作:随机掩盖部分麦克风的音频数据和坐标信息。4) 特征提取与融合:使用编码器提取音频和坐标的特征,并将它们融合。5) 解码与重建:使用解码器从融合后的特征中重建被掩盖的坐标信息。6) 损失计算与优化:计算重建坐标与真实坐标之间的损失,并使用反向传播算法优化模型参数。

关键创新:最重要的技术创新点在于将声源定位问题建模为集合到集合的回归问题,并利用掩码自编码器来学习声源和麦克风阵列之间的关系。与传统方法相比,该方法不需要预先知道麦克风阵列的几何结构,并且能够处理任意数量的麦克风和数据缺失的情况。与现有的基于学习的方法相比,该方法更加灵活和鲁棒。

关键设计:论文中使用了Transformer作为编码器和解码器的基本结构。损失函数采用均方误差(MSE)来衡量重建坐标与真实坐标之间的差异。掩码比例是一个重要的超参数,控制着输入中被掩盖的信息量。论文中还探索了不同的特征提取方法和融合策略,以提高模型的性能。具体来说,音频特征提取使用了STFT,坐标特征直接使用了麦克风的3D坐标。融合策略使用了简单的拼接操作。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,wav2pos方法在模拟和真实环境中均取得了具有竞争力的性能。在模拟数据集上,该方法在不同麦克风数量和噪声水平下均优于传统方法。在真实数据集上,该方法也取得了与现有基于学习的方法相当的性能,并且对数据缺失具有更强的鲁棒性。具体性能数据未知。

🎯 应用场景

该研究成果可应用于智能家居、视频会议、机器人导航、安防监控等领域。例如,在智能家居中,可以通过麦克风阵列定位用户的声音,从而实现语音控制和个性化服务。在视频会议中,可以自动跟踪发言人的位置,提高会议的交互性。在机器人导航中,可以利用声源定位来辅助机器人进行环境感知和自主导航。

📄 摘要(原文)

We present a novel approach to the 3D sound source localization task for distributed ad-hoc microphone arrays by formulating it as a set-to-set regression problem. By training a multi-modal masked autoencoder model that operates on audio recordings and microphone coordinates, we show that such a formulation allows for accurate localization of the sound source, by reconstructing coordinates masked in the input. Our approach is flexible in the sense that a single model can be used with an arbitrary number of microphones, even when a subset of audio recordings and microphone coordinates are missing. We test our method on simulated and real-world recordings of music and speech in indoor environments, and demonstrate competitive performance compared to both classical and other learning based localization methods.