NatureLM-audio: an Audio-Language Foundation Model for Bioacoustics

📄 arXiv: 2411.07186v2 📥 PDF

作者: David Robinson, Marius Miron, Masato Hagiwara, Benno Weck, Sara Keen, Milad Alizadeh, Gagan Narula, Matthieu Geist, Olivier Pietquin

分类: cs.SD, cs.AI, cs.LG, eess.AS

发布日期: 2024-11-11 (更新: 2025-06-30)

备注: Demo page: https://earthspecies.github.io/naturelm-audio-demo/


💡 一句话要点

NatureLM-audio:面向生物声学的音频-语言基础模型,实现零样本物种分类。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生物声学 音频-语言模型 零样本学习 动物声音识别 生物多样性监测

📋 核心要点

  1. 生物声学领域缺乏带标注数据,限制了大型语言模型在动物声音检测、稀有物种分类等任务上的应用。
  2. NatureLM-audio通过在包含生物声学、语音和音乐的文本-音频对上进行训练,实现了知识从语音和音乐到生物声学的迁移。
  3. 实验表明,NatureLM-audio在生物声学任务上取得了新的state-of-the-art结果,尤其是在零样本物种分类方面表现突出。

📝 摘要(中文)

本文提出了NatureLM-audio,这是首个专门为生物声学设计的音频-语言基础模型。该模型利用精心策划的文本-音频对进行训练,数据涵盖生物声学、语音和音乐,旨在解决该领域带标注数据有限的问题。研究表明,从音乐和语音中学习到的表征可以成功迁移到生物声学领域。NatureLM-audio在未见过的物种和任务上表现出良好的泛化能力。该模型在一个新的基准测试(BEANS-Zero)上进行了评估,并在多个生物声学任务上取得了新的state-of-the-art结果,包括零样本物种分类。为了促进生物声学研究,作者发布了模型权重、基准数据,并开源了训练和基准数据生成以及模型训练的代码。

🔬 方法详解

问题定义:生物声学领域面临着数据标注成本高昂、标注数据稀缺的挑战,这限制了大型语言模型在该领域的应用。现有方法难以有效利用未标注数据,并且在处理未见过的物种时泛化能力较差。

核心思路:本文的核心思路是利用音频-语言建模,通过在包含生物声学、语音和音乐的大规模数据集上进行预训练,使模型能够学习到通用的音频表征,并将其迁移到生物声学任务中。通过结合文本信息,模型可以更好地理解音频内容,从而提高分类和检测的准确性。

技术框架:NatureLM-audio采用音频-语言Transformer架构。整体流程包括:1) 音频编码器将音频信号转换为特征向量;2) 文本编码器将文本描述转换为特征向量;3) 音频和文本特征向量被输入到Transformer解码器中,进行跨模态融合;4) 模型通过对比学习目标进行训练,使得相似的音频和文本在特征空间中更接近。

关键创新:该模型最重要的创新点在于其专门为生物声学设计的训练数据集和训练策略。通过混合生物声学、语音和音乐数据,模型能够学习到更鲁棒和泛化的音频表征。此外,该模型还采用了零样本学习方法,使其能够对未见过的物种进行分类。

关键设计:音频编码器采用预训练的音频模型(如HuBERT或Wav2Vec 2.0),文本编码器采用预训练的语言模型(如BERT或RoBERTa)。对比学习损失函数采用InfoNCE损失,旨在最大化正样本对之间的互信息,最小化负样本对之间的互信息。模型训练过程中使用了数据增强技术,如时间拉伸、音高变换等,以提高模型的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

NatureLM-audio在BEANS-Zero基准测试中取得了显著成果,在多个生物声学任务上刷新了state-of-the-art。尤其是在零样本物种分类任务中,该模型能够对未见过的物种进行准确分类,表明其具有强大的泛化能力。具体性能数据在论文中有详细展示,相较于之前的模型有显著提升。

🎯 应用场景

NatureLM-audio在生物多样性监测、动物保护、生态研究等领域具有广泛的应用前景。它可以用于自动检测和识别动物声音,从而帮助研究人员了解动物的分布、行为和种群数量。此外,该模型还可以用于监测环境变化对动物的影响,为制定保护策略提供依据。

📄 摘要(原文)

Large language models (LLMs) prompted with text and audio have achieved state-of-the-art performance across various auditory tasks, including speech, music, and general audio, showing emergent abilities on unseen tasks. However, their potential has yet to be fully demonstrated in bioacoustics tasks, such as detecting animal vocalizations in large recordings, classifying rare and endangered species, and labeling context and behavior -- tasks that are crucial for conservation, biodiversity monitoring, and animal behavior studies. In this work, we present NatureLM-audio, the first audio-language foundation model specifically designed for bioacoustics. Our training dataset consists of carefully curated text-audio pairs spanning bioacoustics, speech, and music, designed to address the field's limited availability of annotated data. We demonstrate successful transfer of learned representations from music and speech to bioacoustics, and our model shows promising generalization to unseen taxa and tasks. We evaluate NatureLM-audio on a novel benchmark (BEANS-Zero) and it sets a new state of the art on several bioacoustics tasks, including zero-shot classification of unseen species. To advance bioacoustics research, we release our model weights, benchmark data, and open-source the code for training and benchmark data generation and model training.