Model Merging Improves Zero-Shot Generalization in Bioacoustic Foundation Models

📄 arXiv: 2511.05171v2 📥 PDF

作者: Davide Marincione, Donato Crisostomi, Roberto Dessi, Emanuele Rodolà, Emanuele Rossi

分类: cs.LG, cs.AI, cs.SD

发布日期: 2025-11-07 (更新: 2025-11-19)


💡 一句话要点

模型融合提升生物声学基础模型零样本泛化能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生物声学 基础模型 零样本学习 模型融合 指令遵循

📋 核心要点

  1. 现有生物声学基础模型在微调后,指令遵循灵活性降低,例如同时请求通用名和学名时准确率下降。
  2. 论文提出模型融合策略,将领域微调模型与基础语言模型插值,恢复指令遵循能力,同时保留领域知识。
  3. 实验表明,融合后的模型在未见物种的零样本分类中,性能提升超过200%,达到新的最优水平。

📝 摘要(中文)

能够跨物种和任务泛化的基础模型代表了生物声学领域一个很有前景的新方向,NatureLM是其中最突出的例子之一。虽然其在特定生物声学基准数据集上的微调表现出色,但我们观察到这也在指令遵循的灵活性方面引入了权衡。例如,当单独提示通用名称或学名时,NatureLM可以实现高精度,但当在单个提示中同时请求两者时,其准确性会显著下降。我们通过应用一种简单的模型融合策略来解决这个问题,该策略将NatureLM与其基础语言模型进行插值,从而在最小化领域专业知识损失的同时恢复指令遵循能力。最后,我们表明,融合后的模型表现出明显更强的零样本泛化能力,在未见物种的封闭集零样本分类中实现了超过200%的相对改进,并创造了新的state-of-the-art。

🔬 方法详解

问题定义:论文旨在解决生物声学基础模型(如NatureLM)在领域特定微调后,指令遵循能力下降的问题。具体表现为,模型在同时处理多个指令(例如,同时请求物种的通用名和学名)时,准确率显著降低。现有方法缺乏在保持领域知识的同时,有效提升指令遵循灵活性的策略。

核心思路:论文的核心思路是通过模型融合,将领域微调后的NatureLM模型与原始的基础语言模型进行插值。这样做的目的是将基础语言模型的通用指令理解能力“注入”到领域模型中,从而在不显著损失领域知识的前提下,提升模型对复杂指令的理解和执行能力。

技术框架:该方法的核心是模型融合。具体流程如下:1. 训练或获取一个在生物声学数据上微调的NatureLM模型。2. 获取NatureLM所基于的原始基础语言模型。3. 使用线性插值或其他模型融合技术,将两个模型进行融合,得到融合后的模型。融合后的模型既具备领域知识,又具备较强的指令遵循能力。

关键创新:该方法最重要的创新点在于,它提供了一种简单有效的策略,可以在领域微调和指令遵循灵活性之间取得平衡。通过模型融合,可以避免重新训练整个模型,从而节省计算资源和时间。此外,该方法具有通用性,可以应用于其他领域的基础模型,以提升其在特定任务上的零样本泛化能力。

关键设计:论文采用线性插值作为模型融合的具体方法。融合后的模型参数计算公式为:θ_merged = λ * θ_NatureLM + (1 - λ) * θ_base_LM,其中θ_merged是融合后模型的参数,θ_NatureLM是NatureLM的参数,θ_base_LM是基础语言模型的参数,λ是插值系数,控制着两个模型对最终模型的影响程度。λ的选择是一个关键参数,需要在实验中进行调整,以找到最佳的平衡点。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,通过模型融合,NatureLM在未见物种的封闭集零样本分类中取得了显著的性能提升,相对改进超过200%,并创造了新的state-of-the-art。这表明模型融合策略能够有效提升生物声学基础模型的零样本泛化能力,使其能够更好地适应新的物种和环境。

🎯 应用场景

该研究成果可应用于生物多样性监测、生态声学研究、自动物种识别等领域。通过提升生物声学模型的零样本泛化能力,可以更有效地识别和分析来自不同环境和物种的声音,从而为保护生物多样性和研究生态系统提供更强大的工具。未来,该方法可以推广到其他领域,例如医学影像分析和工业故障诊断。

📄 摘要(原文)

Foundation models capable of generalizing across species and tasks represent a promising new frontier in bioacoustics, with NatureLM being one of the most prominent examples. While its domain-specific fine-tuning yields strong performance on bioacoustic benchmarks, we observe that it also introduces trade-offs in instruction-following flexibility. For instance, NatureLM achieves high accuracy when prompted for either the common or scientific name individually, but its accuracy drops significantly when both are requested in a single prompt. We address this by applying a simple model merging strategy that interpolates NatureLM with its base language model, recovering instruction-following capabilities with minimal loss of domain expertise. Finally, we show that the merged model exhibits markedly stronger zero-shot generalization, achieving over a 200% relative improvement and setting a new state-of-the-art in closed-set zero-shot classification of unseen species.