AudioMosaic: Contrastive Masked Audio Representation Learning

📄 arXiv: 2605.14231v1 📥 PDF

作者: Hanxun Huang, Qizhou Wang, Xingjun Ma, Cihang Xie, Christopher Leckie, Sarah Erfani

分类: cs.LG, cs.AI, cs.SD

发布日期: 2026-05-14

备注: ICML2026

🔗 代码/项目: GITHUB


💡 一句话要点

AudioMosaic:基于对比学习和掩码的音频表征学习方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 音频自监督学习 对比学习 时频掩码 音频表征学习 音频理解

📋 核心要点

  1. 现有的音频自监督学习主要依赖生成式重建目标,对比学习方法由于音频增强设计困难和对大批量训练的需求而较少被探索。
  2. AudioMosaic通过对频谱图块进行结构化的时频掩码来构建正样本对,降低了内存占用,并支持高效的大批量训练。
  3. 实验表明,AudioMosaic在多个音频基准测试中取得了领先性能,并且可以提升音频-语言模型的性能。

📝 摘要(中文)

本文提出了一种名为AudioMosaic的基于对比学习的音频编码器,用于通用音频理解。针对现有对比学习方法在音频增强设计和大规模批次训练上的挑战,AudioMosaic通过对频谱图块应用结构化的时频掩码来构建正样本对,从而降低内存使用并实现高效的大规模批次训练。与生成式方法相比,AudioMosaic编码器学习到更具区分性的语句级表征,并在跨数据集、领域和声学条件方面表现出强大的迁移能力。大量实验表明,AudioMosaic在多种标准音频基准测试中,在线性探测和微调下均取得了最先进的性能。此外,将预训练的AudioMosaic编码器集成到音频-语言模型中,可以提高音频-语言任务的性能。代码已公开。

🔬 方法详解

问题定义:现有音频自监督学习方法,特别是对比学习方法,面临两个主要痛点:一是如何设计有效的音频数据增强方式,以构建高质量的正样本对;二是对比学习通常需要非常大的batch size才能有效训练,这给计算资源带来了很大的挑战。

核心思路:AudioMosaic的核心思路是通过结构化的时频掩码(structured time-frequency masking)来构建正样本对。具体来说,对同一音频片段的频谱图的不同区域进行掩码,并将掩码后的不同版本视为正样本。这种方法既能引入数据增强,又能有效降低内存占用,从而支持更大batch size的训练。

技术框架:AudioMosaic的整体框架包含以下几个主要阶段:1) 音频数据预处理,包括提取频谱图;2) 对频谱图进行分块(patchify);3) 对每个patch应用结构化的时频掩码,生成正样本对;4) 使用对比学习目标函数训练音频编码器。编码器可以是任何标准的神经网络结构,例如Transformer。

关键创新:AudioMosaic的关键创新在于提出了结构化的时频掩码方法,用于构建对比学习的正样本对。这种方法不同于传统的随机数据增强,它能够更有效地利用音频数据的时频结构信息,从而学习到更鲁棒和具有区分性的音频表征。

关键设计:AudioMosaic的关键设计包括:1) 频谱图块的大小和形状;2) 时频掩码的结构和比例;3) 对比学习的损失函数,例如InfoNCE;4) 编码器的网络结构和参数设置。论文中可能详细描述了这些参数的选择和优化过程,以及它们对最终性能的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AudioMosaic在多个音频基准测试中取得了state-of-the-art的性能,包括ESC-50、UrbanSound8K等。与现有的自监督学习方法相比,AudioMosaic在这些数据集上取得了显著的性能提升。此外,将AudioMosaic预训练的编码器集成到音频-语言模型中,也提高了音频-语言任务的性能。

🎯 应用场景

AudioMosaic具有广泛的应用前景,包括语音识别、音乐分类、环境声音检测等音频理解任务。其学习到的通用音频表征可以作为下游任务的预训练模型,从而提高模型性能并减少对标注数据的依赖。此外,AudioMosaic还可以应用于音频-语言跨模态学习,例如音频字幕生成、音频问答等。

📄 摘要(原文)

Audio self-supervised learning (SSL) aims to learn general-purpose representations from large-scale unlabeled audio data. While recent advances have been driven mainly by generative reconstruction objectives, contrastive approaches remain less explored, partly due to the difficulty of designing effective audio augmentations and the large batch sizes required for contrastive pre-training. We introduce \textbf{AudioMosaic}, a contrastive learning-based audio encoder for general audio understanding. During pre-training, AudioMosaic constructs positive pairs by applying structured time-frequency masking to spectrogram patches, which reduces memory usage and enables efficient large-batch training. Compared with generative approaches, the AudioMosaic encoder learns more discriminative utterance-level representations that demonstrate strong transferability across datasets, domains, and acoustic conditions. Extensive experiments show that AudioMosaic achieves state-of-the-art performance on several standard audio benchmarks under both linear probing and fine-tuning. We further show that integrating the pretrained AudioMosaic encoder into audio-language models improves performance on audio-language tasks. The code is publicly available in our \href{https://github.com/HanxunH/AudioMosaic}{GitHub repository}.