ReCLAP: Improving Zero Shot Audio Classification by Describing Sounds

📄 arXiv: 2409.09213v1 📥 PDF

作者: Sreyan Ghosh, Sonal Kumar, Chandra Kiran Reddy Evuru, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha

分类: eess.AS, cs.CL, cs.SD

发布日期: 2024-09-13

备注: Code and Checkpoints: https://github.com/Sreyan88/ReCLAP


💡 一句话要点

ReCLAP:通过描述声音改进零样本音频分类

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 零样本学习 音频分类 多模态学习 对比学习 提示工程 音频理解 声音事件检测

📋 核心要点

  1. 现有零样本音频分类方法依赖抽象类别标签提示,缺乏对声音本身特征的细致描述。
  2. 论文核心在于通过重写音频字幕训练ReCLAP模型,并结合自定义提示增强,提升模型对声音的理解和分类能力。
  3. 实验结果表明,ReCLAP在多模态检索和零样本音频分类任务上均显著优于现有基线模型,最高提升达55%。

📝 摘要(中文)

本文提出了一种简单而有效的方法,通过描述声音来改进CLAP模型的零样本音频分类(ZSAC)性能。不同于传统的使用抽象类别标签(例如,管风琴的声音)作为提示,本文采用描述声音固有特征的提示(例如,管风琴深沉而共鸣的音调充满了教堂)。为此,首先提出了ReCLAP,一个使用重写的音频字幕训练的CLAP模型,以提高对声音的理解。这些重写的字幕使用其独特的判别特征来描述原始字幕中的每个声音事件。ReCLAP在多模态音频-文本检索和ZSAC方面均优于所有基线。其次,为了改进ReCLAP的零样本音频分类,提出了提示增强方法。与使用手写模板提示的传统方法不同,本文为数据集中的每个唯一标签生成自定义提示。这些自定义提示首先描述标签中的声音事件,然后将其应用于不同的场景。所提出的方法将ReCLAP在ZSAC上的性能提高了1%-18%,并且优于所有基线1%-55%。

🔬 方法详解

问题定义:零样本音频分类(ZSAC)旨在无需特定类别训练数据的情况下,利用自然语言描述对音频进行分类。现有方法通常使用抽象的类别标签(如“狗叫”)作为提示,缺乏对声音本身特征的细致描述,限制了模型的分类性能。

核心思路:核心思路是通过更具描述性的语言提示来增强模型对声音的理解。具体而言,首先训练一个改进的CLAP模型(ReCLAP),该模型使用重写的音频字幕,这些字幕详细描述了声音的特征。然后,利用这些描述性的特征生成自定义提示,用于零样本音频分类。

技术框架:整体框架包含两个主要阶段:1) ReCLAP模型的训练:使用重写的音频字幕对CLAP模型进行微调,使得模型能够更好地理解声音的描述性特征。2) 提示增强:为每个类别标签生成自定义提示,这些提示包含对声音事件的描述,并将这些描述应用于不同的场景。在推理阶段,使用这些增强的提示对音频进行分类。

关键创新:关键创新在于使用描述性语言来表示音频类别,而不是使用抽象的类别标签。这种方法能够更好地利用CLAP模型的多模态能力,提高零样本音频分类的准确性。此外,自定义提示生成方法能够为每个类别生成更具针对性的提示,进一步提升分类性能。

关键设计:ReCLAP模型的训练使用了重写的音频字幕,这些字幕通过人工或自动的方式生成,旨在更详细地描述音频事件的特征。提示增强方法使用了模板化的方式生成自定义提示,例如“The sound of [sound event] is [characteristic] in [scene]”。具体的损失函数和网络结构与原始CLAP模型保持一致,主要通过数据增强和提示工程来提升性能。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,ReCLAP在多模态音频-文本检索和零样本音频分类任务上均取得了显著的提升。在零样本音频分类任务中,ReCLAP结合提示增强方法,相比于基线模型,性能提升了1%-55%。尤其是在一些细粒度的音频分类任务上,提升效果更为明显。

🎯 应用场景

该研究成果可应用于智能安防、环境监测、音频内容检索等领域。例如,在智能安防中,可以通过声音识别异常事件;在环境监测中,可以识别特定环境声音以评估环境质量;在音频内容检索中,可以根据声音描述检索相关音频内容。未来,该技术有望进一步提升音频理解和应用能力。

📄 摘要(原文)

Open-vocabulary audio-language models, like CLAP, offer a promising approach for zero-shot audio classification (ZSAC) by enabling classification with any arbitrary set of categories specified with natural language prompts. In this paper, we propose a simple but effective method to improve ZSAC with CLAP. Specifically, we shift from the conventional method of using prompts with abstract category labels (e.g., Sound of an organ) to prompts that describe sounds using their inherent descriptive features in a diverse context (e.g.,The organ's deep and resonant tones filled the cathedral.). To achieve this, we first propose ReCLAP, a CLAP model trained with rewritten audio captions for improved understanding of sounds in the wild. These rewritten captions describe each sound event in the original caption using their unique discriminative characteristics. ReCLAP outperforms all baselines on both multi-modal audio-text retrieval and ZSAC. Next, to improve zero-shot audio classification with ReCLAP, we propose prompt augmentation. In contrast to the traditional method of employing hand-written template prompts, we generate custom prompts for each unique label in the dataset. These custom prompts first describe the sound event in the label and then employ them in diverse scenes. Our proposed method improves ReCLAP's performance on ZSAC by 1%-18% and outperforms all baselines by 1% - 55%.