A sound description: Exploring prompt templates and class descriptions to enhance zero-shot audio classification
作者: Michel Olvera, Paraskevas Stamatiadis, Slim Essid
分类: cs.SD, cs.AI, eess.AS
发布日期: 2024-09-19
备注: DCASE 2024 - 9th Workshop on Detection and Classification of Acoustic Scenes and Events, Oct 2024, Tokyo, Japan
💡 一句话要点
探索提示模板与类别描述,提升零样本音频分类性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 零样本学习 音频分类 提示工程 大型语言模型 对比学习
📋 核心要点
- 现有零样本音频分类方法依赖人工设计的提示模板,缺乏对音频特征的针对性描述。
- 本文利用大型语言模型生成音频中心描述,补充类别标签,提升模型对音频特征的理解。
- 实验表明,该方法在多个数据集上取得了SOTA结果,且无需额外训练,保持零样本特性。
📝 摘要(中文)
本文研究了基于对比学习的音频-文本模型在零样本音频分类中的应用,该方法通过自然语言提示(如“这是一种声音”)结合类别名称进行分类。研究发现,提示模板的格式对性能有显著影响,适当格式化的类别标签可以与优化的提示模板甚至提示集成相媲美。此外,本文还探讨了通过音频中心描述来补充类别标签的方法。利用大型语言模型生成侧重于声音事件声学特征的文本描述,以区分不同类别,无需大量的提示工程。实验表明,使用类别描述进行提示可以在主要的 ambient sound 数据集上实现最先进的零样本音频分类结果。值得注意的是,该方法无需额外训练,完全是零样本的。
🔬 方法详解
问题定义:零样本音频分类旨在不经过任何特定类别训练的情况下,仅通过自然语言描述对音频进行分类。现有方法依赖于人工设计的提示模板,这些模板通常是通用的,缺乏对音频信号本身特征的针对性描述,导致分类性能受限。此外,提示工程需要大量的人工调整和优化,成本较高。
核心思路:本文的核心思路是利用大型语言模型(LLM)生成更具信息量的类别描述,这些描述侧重于音频事件的声学特征,从而帮助模型更好地区分不同的音频类别。通过将类别标签与LLM生成的描述相结合,可以有效地提升零样本音频分类的性能,同时避免了繁琐的提示工程。
技术框架:该方法主要包含两个阶段:1) 使用大型语言模型生成类别描述。给定类别标签,使用LLM生成一段描述,该描述重点关注该类别音频事件的声学特征。2) 使用音频-文本模型进行零样本分类。将生成的类别描述与音频输入一起输入到预训练的音频-文本模型中,模型计算音频与每个类别描述之间的相似度,选择相似度最高的类别作为预测结果。
关键创新:该方法最重要的创新点在于利用大型语言模型自动生成音频中心描述,从而避免了人工设计提示模板的需要。与传统的提示工程方法相比,该方法更加高效和自动化,并且能够生成更具信息量的描述,从而提升分类性能。
关键设计:在生成类别描述时,使用了特定的prompt来引导LLM生成侧重于声学特征的描述。例如,可以使用类似“Describe the acoustic characteristics of [类别名称]”的prompt。在计算音频与类别描述之间的相似度时,可以使用预训练的对比学习模型,例如CLIP或类似的模型。没有提及具体的损失函数或网络结构,因为该方法主要依赖于预训练模型和LLM。
📊 实验亮点
实验结果表明,使用LLM生成的音频中心描述可以显著提升零样本音频分类的性能。在多个ambient sound数据集上,该方法取得了state-of-the-art的结果,超过了传统的提示工程方法。具体性能数据未知,但强调了优于现有方法。
🎯 应用场景
该研究成果可应用于智能安防、智能家居、环境监测等领域。例如,在智能安防中,可以利用该方法对异常声音进行自动识别和报警;在智能家居中,可以根据声音类型自动调节设备状态;在环境监测中,可以对环境噪声进行分析和分类。该方法无需额外训练,具有很高的实用价值和推广潜力。
📄 摘要(原文)
Audio-text models trained via contrastive learning offer a practical approach to perform audio classification through natural language prompts, such as "this is a sound of" followed by category names. In this work, we explore alternative prompt templates for zero-shot audio classification, demonstrating the existence of higher-performing options. First, we find that the formatting of the prompts significantly affects performance so that simply prompting the models with properly formatted class labels performs competitively with optimized prompt templates and even prompt ensembling. Moreover, we look into complementing class labels by audio-centric descriptions. By leveraging large language models, we generate textual descriptions that prioritize acoustic features of sound events to disambiguate between classes, without extensive prompt engineering. We show that prompting with class descriptions leads to state-of-the-art results in zero-shot audio classification across major ambient sound datasets. Remarkably, this method requires no additional training and remains fully zero-shot.