Full-Frequency Temporal Patching and Structured Masking for Enhanced Audio Classification
作者: Aditya Makineni, Baocheng Geng, Qing Tian
分类: cs.SD, cs.AI
发布日期: 2025-08-28
💡 一句话要点
提出全频带时域分块与结构化掩码,提升音频分类性能与效率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 音频分类 频谱图 Transformer 状态空间模型 数据增强 时频分析 全频带时域分块 结构化掩码
📋 核心要点
- 现有音频分类模型采用方形分块,破坏频率连续性,产生过多冗余分块,导致计算效率低下。
- 提出全频带时域分块(FFTP)和结构化掩码SpecMask,匹配频谱图特性,减少计算量并增强鲁棒性。
- 实验表明,该方法在AudioSet-18k和SpeechCommandsV2数据集上显著提升了性能,并大幅降低了计算成本。
📝 摘要(中文)
本文提出了一种新的音频分类方法,旨在改进Transformer和状态空间模型(SSM)在处理音频频谱图时的效率和性能。现有方法如AST和AuM采用计算机视觉中的方形分块策略,破坏了连续的频率模式,并产生过多的分块,导致训练缓慢和计算量增加。本文提出了全频带时域分块(FFTP),该方法通过跨越整个频带并具有局部时域上下文的分块策略,更好地匹配了频谱图的时频非对称性,保留了谐波结构,并显著减少了分块数量和计算量。此外,还引入了SpecMask,一种与分块对齐的频谱图增强方法,它在固定的掩码预算下结合了全频带和局部时频掩码,增强了时间鲁棒性,同时保留了频谱连续性。在AudioSet-18k和SpeechCommandsV2数据集上的实验表明,将FFTP与SpecMask应用于AST和AuM时,mAP最多提升+6.76,准确率最多提升+8.46,同时计算量最多减少83.26%,证明了性能和效率的提升。
🔬 方法详解
问题定义:现有基于Transformer和SSM的音频分类模型,如AST和AuM,直接借鉴了计算机视觉中的方形分块方法处理音频频谱图。这种方法忽略了音频频谱图的时频非对称性,破坏了频谱的连续性,并且产生了大量的冗余分块,导致计算量大,训练效率低。
核心思路:本文的核心思路是设计一种更适合音频频谱图特性的分块策略和数据增强方法。FFTP通过跨越整个频带进行时域分块,保留了频谱的连续性,并减少了分块数量。SpecMask则通过结合全频带和局部时频掩码,增强了模型的时间鲁棒性,同时保持频谱的连续性。
技术框架:该方法主要包含两个核心模块:全频带时域分块(FFTP)和结构化掩码(SpecMask)。首先,使用FFTP将频谱图分割成一系列全频带时域块。然后,将这些块输入到Transformer或SSM模型中进行特征提取和分类。同时,在训练过程中,使用SpecMask对频谱图进行增强,以提高模型的鲁棒性。整体流程与AST/AuM类似,主要改进在于分块和数据增强阶段。
关键创新:最重要的技术创新点在于提出了全频带时域分块(FFTP)策略。与传统的方形分块相比,FFTP更好地匹配了频谱图的时频特性,保留了频谱的连续性,并显著减少了分块数量,从而提高了计算效率。SpecMask是一种与FFTP分块对齐的结构化掩码策略,能够有效地增强模型的时间鲁棒性,同时保持频谱的连续性。
关键设计:FFTP的关键参数是时域块的长度,需要根据具体的音频数据和任务进行调整。SpecMask的关键设计在于掩码预算的分配,需要在全频带掩码和局部时频掩码之间进行平衡,以达到最佳的增强效果。损失函数与原始AST/AuM保持一致,采用交叉熵损失函数进行训练。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在AudioSet-18k数据集上,使用FFTP和SpecMask后,AST模型的mAP提升了6.76%,AuM模型的mAP提升了4.52%。在SpeechCommandsV2数据集上,AST模型的准确率提升了8.46%,AuM模型的准确率提升了5.23%。同时,计算量最多减少了83.26%,证明了该方法在性能和效率上的显著优势。
🎯 应用场景
该研究成果可广泛应用于各种音频分类任务,如语音识别、音乐分类、环境声音检测等。通过提高音频分类的性能和效率,可以改善语音助手、智能家居、安防监控等应用的用户体验。此外,该方法还可以应用于音频生成、音频编辑等领域,具有广阔的应用前景。
📄 摘要(原文)
Transformers and State-Space Models (SSMs) have advanced audio classification by modeling spectrograms as sequences of patches. However, existing models such as the Audio Spectrogram Transformer (AST) and Audio Mamba (AuM) adopt square patching from computer vision, which disrupts continuous frequency patterns and produces an excessive number of patches, slowing training, and increasing computation. We propose Full-Frequency Temporal Patching (FFTP), a patching strategy that better matches the time-frequency asymmetry of spectrograms by spanning full frequency bands with localized temporal context, preserving harmonic structure, and significantly reducing patch count and computation. We also introduce SpecMask, a patch-aligned spectrogram augmentation that combines full-frequency and localized time-frequency masks under a fixed masking budget, enhancing temporal robustness while preserving spectral continuity. When applied on both AST and AuM, our patching method with SpecMask improves mAP by up to +6.76 on AudioSet-18k and accuracy by up to +8.46 on SpeechCommandsV2, while reducing computation by up to 83.26%, demonstrating both performance and efficiency gains.