Estimated Audio-Caption Correspondences Improve Language-Based Audio Retrieval
作者: Paul Primus, Florian Schmid, Gerhard Widmer
分类: eess.AS, cs.LG, cs.SD
发布日期: 2024-08-21
备注: In Proceedings of the 9th Workshop on Detection and Classification of Acoustic Scenes and Events, DCASE, Tokyo, Japan, 2024. Implementation available on GitHub: https://github.com/OptimusPrimus/salsa
💡 一句话要点
提出基于估计音频-文本对应关系的语言音频检索方法,提升检索性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 音频检索 对比学习 自蒸馏 多模态学习 伪标签
📋 核心要点
- 现有音频检索方法依赖随机负采样构建对比学习样本,可能引入噪声,影响模型性能。
- 论文提出两阶段训练方法,先训练多个模型,再利用这些模型预测的对应关系作为训练目标。
- 实验表明,该方法在ClothoV2和AudioCaps数据集上均有提升,并在ClothoV2上超越了现有最佳水平。
📝 摘要(中文)
基于双编码器的音频检索系统通常通过对比学习进行优化,利用匹配和不匹配的音频-文本对。这种方法旨在创建一个共享的嵌入空间,使对应的模态数据彼此靠近。然而,音频-文本数据集通常只包含匹配的样本对,因此,常见的做法是通过随机配对音频和文本来创建不匹配的样本对。这种方法并不理想,因为随机抽取的文本可能偶然地部分或完全描述了音频。由于标注所有可能配对的对应关系成本高昂,因此通常不可行。为此,我们建议用估计的对应关系来替代。我们提出了一种两阶段训练程序,首先像往常一样训练多个检索模型,即不使用估计的对应关系。在第二阶段,这些模型预测的音频-文本对应关系将作为预测目标。我们在ClothoV2和AudioCaps基准测试中评估了我们的方法,结果表明,即使在限制性的自蒸馏设置中(单个模型生成并从估计的对应关系中学习),该方法也能提高检索性能。此外,我们的方法在ClothoV2基准测试中,mAP@10指标上超过了当前最佳水平1.6个百分点。
🔬 方法详解
问题定义:现有的基于对比学习的音频检索方法,在训练时需要大量的负样本。通常的做法是从数据集中随机抽取文本描述与音频配对作为负样本。然而,这种随机负采样策略可能会引入假阴性样本,即抽取的文本描述实际上与音频内容相关,从而误导模型的训练,降低检索性能。标注所有音频-文本对的对应关系成本过高,难以实现。
核心思路:论文的核心思路是利用模型自身学习到的知识来估计音频和文本之间的对应关系,并将其作为训练信号。通过两阶段的训练策略,首先训练多个初始模型,然后利用这些模型预测的音频-文本相似度作为伪标签,指导模型的进一步训练。这种方法避免了随机负采样引入的噪声,并利用了模型自身的知识进行自监督学习。
技术框架:该方法采用两阶段训练框架: 1. 初始模型训练阶段:训练多个基于双编码器的音频检索模型,使用传统的对比学习方法,即随机负采样。 2. 自蒸馏阶段:利用第一阶段训练的模型预测音频-文本对的相似度,并将这些相似度作为伪标签。然后,训练一个新的模型,以预测这些伪标签为目标。这个过程可以看作是自蒸馏,其中第一阶段的模型作为教师模型,第二阶段的模型作为学生模型。
关键创新:该方法的核心创新在于利用模型自身预测的音频-文本对应关系作为训练信号,避免了随机负采样引入的噪声。这种自监督学习的方式,可以有效地提高模型的检索性能。此外,两阶段训练框架也使得模型能够逐步学习到更准确的音频-文本对应关系。
关键设计: * 模型结构:采用双编码器结构,分别对音频和文本进行编码,得到对应的嵌入向量。 * 损失函数:第一阶段使用对比损失函数,第二阶段使用均方误差损失函数,以最小化模型预测的相似度与伪标签之间的差异。 * 训练策略:采用两阶段训练策略,先训练多个初始模型,再利用这些模型预测的相似度作为伪标签进行自蒸馏。 * 超参数:具体的学习率、batch size等超参数设置未知,论文中可能未详细描述。
🖼️ 关键图片
📊 实验亮点
该方法在ClothoV2和AudioCaps数据集上进行了评估,实验结果表明,该方法能够有效地提高音频检索的性能。在ClothoV2数据集上,该方法在mAP@10指标上超过了当前最佳水平1.6个百分点。即使在限制性的自蒸馏设置下,该方法仍然能够取得显著的性能提升,证明了其有效性和鲁棒性。
🎯 应用场景
该研究成果可应用于音频检索、音乐推荐、视频内容理解等领域。例如,用户可以通过文本描述快速找到相关的音频内容,或者根据音频内容生成相应的文本描述。该方法还可以用于提高语音识别和语音合成的准确性,以及改善多模态信息融合的效果。未来,该方法有望在智能音箱、智能助手等产品中得到广泛应用。
📄 摘要(原文)
Dual-encoder-based audio retrieval systems are commonly optimized with contrastive learning on a set of matching and mismatching audio-caption pairs. This leads to a shared embedding space in which corresponding items from the two modalities end up close together. Since audio-caption datasets typically only contain matching pairs of recordings and descriptions, it has become common practice to create mismatching pairs by pairing the audio with a caption randomly drawn from the dataset. This is not ideal because the randomly sampled caption could, just by chance, partly or entirely describe the audio recording. However, correspondence information for all possible pairs is costly to annotate and thus typically unavailable; we, therefore, suggest substituting it with estimated correspondences. To this end, we propose a two-staged training procedure in which multiple retrieval models are first trained as usual, i.e., without estimated correspondences. In the second stage, the audio-caption correspondences predicted by these models then serve as prediction targets. We evaluate our method on the ClothoV2 and the AudioCaps benchmark and show that it improves retrieval performance, even in a restricting self-distillation setting where a single model generates and then learns from the estimated correspondences. We further show that our method outperforms the current state of the art by 1.6 pp. mAP@10 on the ClothoV2 benchmark.