SELD-Mamba: Selective State-Space Model for Sound Event Localization and Detection with Source Distance Estimation

📄 arXiv: 2408.05057v1 📥 PDF

作者: Da Mu, Zhicheng Zhang, Haobo Yue, Zehao Wang, Jin Tang, Jianqin Yin

分类: cs.SD, cs.AI, eess.AS

发布日期: 2024-08-09


💡 一句话要点

SELD-Mamba:利用选择性状态空间模型进行声源定位与检测,并估计声源距离。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 声源定位与检测 选择性状态空间模型 Mamba 事件独立网络 两阶段训练

📋 核心要点

  1. Transformer在SELD任务中表现出色,但自注意力机制的平方复杂度导致计算效率低下。
  2. SELD-Mamba使用Mamba替代Transformer,旨在提升计算效率,同时保持甚至提升SELD性能。
  3. 两阶段训练策略,先优化SED和DoA,再加入SDE,进一步提升了整体SELD性能。

📝 摘要(中文)

本文针对声源定位与检测(SELD)任务,提出了一种名为SELD-Mamba的网络架构,该架构利用了选择性状态空间模型Mamba。我们采用事件独立网络V2(EINV2)作为基础框架,并将其Conformer块替换为双向Mamba块,以在保持计算效率的同时捕获更广泛的上下文信息。此外,我们实施了一种两阶段训练方法,第一阶段侧重于声音事件检测(SED)和到达方向(DoA)估计损失,第二阶段重新引入声源距离估计(SDE)损失。在2024年DCASE挑战赛Task3数据集上的实验结果表明,选择性状态空间模型在SELD中的有效性,并突出了两阶段训练方法在提高SELD性能方面的优势。

🔬 方法详解

问题定义:现有的基于Transformer的SELD模型在处理长序列时,由于自注意力机制的平方复杂度,计算成本很高,难以满足实时性要求。因此,需要一种更高效的模型来捕获声音事件的上下文信息,同时降低计算复杂度。

核心思路:本文的核心思路是利用Mamba这种选择性状态空间模型来替代Transformer中的自注意力机制。Mamba具有线性复杂度,能够更高效地处理长序列数据,从而降低计算成本。同时,通过双向Mamba块的设计,可以更好地捕获声音事件的上下文信息。

技术框架:SELD-Mamba以EINV2为基础框架,主要包含以下模块:1. 特征提取模块(EINV2原有);2. 双向Mamba块:替换EINV2中的Conformer块,用于提取时序特征;3. 输出层:用于预测SED、DoA和SDE。整体流程是:输入音频特征,经过特征提取模块,然后通过双向Mamba块提取时序特征,最后通过输出层预测SELD结果。

关键创新:最重要的技术创新点在于使用Mamba替代Transformer。Mamba是一种选择性状态空间模型,它能够根据输入动态地选择和更新状态,从而更好地捕获序列中的重要信息。与Transformer相比,Mamba具有线性复杂度,因此在处理长序列时更加高效。

关键设计:1. 双向Mamba块:使用双向Mamba块可以同时捕获过去和未来的上下文信息,从而提高SELD性能。2. 两阶段训练:第一阶段只训练SED和DoA,第二阶段再加入SDE,可以避免SDE对SED和DoA的干扰,从而提高整体性能。3. 损失函数:使用SED、DoA和SDE的加权损失函数,其中权重可以根据实际情况进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SELD-Mamba在2024年DCASE挑战赛Task3数据集上取得了良好的性能。与基线模型相比,SELD-Mamba在计算效率上具有显著优势,同时在SELD指标上也有所提升。两阶段训练策略进一步提升了SELD性能,验证了Mamba在SELD任务中的有效性。

🎯 应用场景

该研究成果可应用于智能安防、智能家居、语音助手、自动驾驶等领域。例如,在智能安防中,可以利用SELD技术来检测异常声音事件并确定其位置,从而提高安全防范能力。在自动驾驶中,可以利用SELD技术来感知周围环境的声音信息,从而提高驾驶安全性。

📄 摘要(原文)

In the Sound Event Localization and Detection (SELD) task, Transformer-based models have demonstrated impressive capabilities. However, the quadratic complexity of the Transformer's self-attention mechanism results in computational inefficiencies. In this paper, we propose a network architecture for SELD called SELD-Mamba, which utilizes Mamba, a selective state-space model. We adopt the Event-Independent Network V2 (EINV2) as the foundational framework and replace its Conformer blocks with bidirectional Mamba blocks to capture a broader range of contextual information while maintaining computational efficiency. Additionally, we implement a two-stage training method, with the first stage focusing on Sound Event Detection (SED) and Direction of Arrival (DoA) estimation losses, and the second stage reintroducing the Source Distance Estimation (SDE) loss. Our experimental results on the 2024 DCASE Challenge Task3 dataset demonstrate the effectiveness of the selective state-space model in SELD and highlight the benefits of the two-stage training approach in enhancing SELD performance.