ISA-Bench: Benchmarking Instruction Sensitivity for Large Audio Language Models

📄 arXiv: 2510.23558v1 📥 PDF

作者: Bohan Li, Wenbin Huang, Yuhang Qiu, Yiwei Guo, Hankun Wang, Zhihan Li, Jing Peng, Ziyang Ma, Xie Chen, Kai Yu

分类: cs.SD, cs.CL, eess.AS

发布日期: 2025-10-27

备注: submitted to icassp 2026


💡 一句话要点

ISA-Bench:针对大型音频语言模型指令敏感性的评测基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型音频语言模型 指令敏感性 评测基准 音频理解 灾难性遗忘

📋 核心要点

  1. 现有大型音频语言模型对指令措辞敏感,导致指令遵循率和任务性能下降,缺乏系统评估工具。
  2. ISA-Bench基准从指令描述、输出格式和任务组成三个维度动态评估LALMs的指令敏感性。
  3. 实验表明现有LALMs存在显著指令敏感性,通过微调Qwen2-Audio可改善,但会引发灾难性遗忘。

📝 摘要(中文)

大型音频语言模型(LALMs)将声学感知与大型语言模型(LLMs)相结合,以提取和理解音频中的多样化信息,受到了学术界和工业界的广泛关注。然而,现有的LALMs对指令措辞高度敏感,影响了(i)指令遵循率和(ii)任务性能。目前还没有基准能够系统而全面地评估这种敏感性。我们提出了ISA-Bench,这是一个动态基准,从指令描述、输出格式和任务组成三个维度评估LALMs的指令敏感性。我们使用ISA-Bench评估了最新的开源和专有LALMs,在受控的指令变化下分析了它们的依从性和准确性。实验结果表明,即使是最先进的LALMs也存在显著的指令敏感性,导致基本音频理解任务的性能下降。为了缓解这个问题,我们在专门构建的复杂指令变体数据集上对Qwen2-Audio进行了微调,从而显著提高了指令遵循性能。然而,这也导致了非同小可的灾难性遗忘:模型在接触新的指令风格时,会失去一些先前掌握的任务能力。我们的基准为评估和改进LALMs中的指令敏感性提供了一个标准化的基础,强调了在实际应用中对指令鲁棒的音频理解的需求。

🔬 方法详解

问题定义:现有的大型音频语言模型(LALMs)对指令的措辞非常敏感,即使是细微的改变也会导致模型性能的显著下降。这种指令敏感性阻碍了LALMs在实际应用中的部署,因为用户很难预测模型在不同指令下的表现。现有的音频理解基准缺乏对指令敏感性的系统性评估,无法有效指导LALMs的改进。

核心思路:ISA-Bench的核心思路是构建一个动态的评测基准,通过系统性地改变指令的各个方面(例如描述方式、输出格式、任务组合),来评估LALMs对这些变化的敏感程度。通过分析模型在不同指令下的表现,可以深入了解模型的弱点,并指导模型的设计和训练。

技术框架:ISA-Bench的整体框架包含三个主要维度:指令描述(Instruction Description)、输出格式(Output Format)和任务组合(Task Composition)。指令描述关注指令的表达方式,例如使用不同的词汇或句式。输出格式关注模型输出的结构,例如要求模型以列表、段落或特定格式返回结果。任务组合关注多个任务的组合方式,例如要求模型先进行音频分类,再进行文本描述。通过控制这些维度的变化,可以全面评估LALMs的指令敏感性。

关键创新:ISA-Bench的关键创新在于其动态性和全面性。传统的基准通常只关注模型的准确率,而忽略了指令对模型性能的影响。ISA-Bench通过系统性地改变指令,可以更深入地了解模型的行为,并发现模型潜在的弱点。此外,ISA-Bench还提供了一个标准化的评估框架,方便研究人员比较不同LALMs的指令敏感性。

关键设计:为了缓解指令敏感性,论文作者尝试在专门构建的复杂指令变体数据集上对Qwen2-Audio进行了微调。这个数据集包含了各种不同的指令表达方式,旨在提高模型的指令鲁棒性。然而,微调也导致了灾难性遗忘,即模型在学习新的指令风格时,会失去一些先前掌握的任务能力。这表明,在提高指令鲁棒性的同时,还需要注意保持模型的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ISA-Bench评估结果显示,即使是先进的LALMs也存在显著的指令敏感性,导致音频理解任务性能下降。通过在复杂指令变体数据集上微调Qwen2-Audio,指令遵循性能得到显著提升,但同时也观察到灾难性遗忘现象。ISA-Bench为LALMs的指令敏感性评估提供了一个标准化的平台。

🎯 应用场景

该研究成果可应用于语音助手、智能客服、音频内容分析等领域。通过提高LALMs的指令鲁棒性,可以提升用户体验,降低开发成本,并促进LALMs在实际场景中的广泛应用。未来的研究可以进一步探索如何减少灾难性遗忘,并开发更有效的指令鲁棒性训练方法。

📄 摘要(原文)

Large Audio Language Models (LALMs), which couple acoustic perception with large language models (LLMs) to extract and understand diverse information from audio, have attracted intense interest from both academic and industrial communities. However, existing LALMs are highly sensitive to how instructions are phrased, affecting both (i) instruction-following rates and (ii) task performance. Yet, no existing benchmarks offer a systematic and comprehensive evaluation of this sensitivity. We introduce ISA-Bench, a dynamic benchmark evaluating instruction sensitivity for LALMs along three axes: instruction description, output format, and task composition. We assess recent open-source and proprietary LALMs using ISA-Bench, profiling both compliance and accuracy under controlled instruction variations. Experimental results reveal that even state-of-the-art LALMs suffer significant instruction sensitivity, leading to degraded performance on fundamental audio understanding tasks. To mitigate this issue, we fine-tune Qwen2-Audio on a specifically constructed complex instruction-variant dataset, achieving a marked improvement in instruction-following performance. However, this also induces nontrivial catastrophic forgetting: the model loses some previously mastered task capabilities when exposed to new instruction styles. Our benchmark provides a standardized basis for assessing and improving instruction sensitivity in LALMs, underscoring the need for instruction-robust audio understanding in real-world pipelines.