SpurAudio: A Benchmark for Studying Shortcut Learning in Few-Shot Audio Classification
作者: Giries Abu Ayoub, Morad Tukan, Loay Mualem
分类: cs.CV
发布日期: 2026-05-13
💡 一句话要点
提出SpurAudio基准,用于研究少样本音频分类中的捷径学习问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 少样本学习 音频分类 捷径学习 上下文依赖 基准测试
📋 核心要点
- 现有少样本音频分类研究忽略了上下文线索的影响,模型易于利用前景和背景的虚假相关性。
- 提出SpurAudio基准,通过控制前景事件和背景环境,实现对上下文转移的多层次评估。
- 实验表明,现有方法在背景相关性被破坏时性能显著下降,即使是大型预训练模型也存在此问题。
📝 摘要(中文)
少样本分类(FSC)被广泛用于从有限的标注数据中学习,但大多数评估隐式地假设目标概念独立于上下文线索。然而,在现实环境中,样本通常出现在丰富的上下文中,使得模型能够利用前景内容和背景信号之间的虚假相关性。虽然这种影响已经在少样本图像分类中得到了研究,但它们在少样本音频分类中的作用在很大程度上仍未被探索,并且现有的音频基准对上下文结构的控制有限。我们引入了SpurAudio,该基准利用音频中前景事件和背景环境的自然可分离性,从而能够对支持集和查询集之间的上下文转移进行可控的多层次评估。使用该基准,我们表明,许多最先进的少样本方法在背景相关性被破坏时,性能会严重下降,尽管在标准评估协议下实现了相似的准确率。至关重要的是,即使在大型预训练音频基础模型中,这种脆弱性仍然存在,排除了有限的骨干容量作为解释。此外,在传统基准下表现相当的方法可能表现出对虚假相关性明显不同的敏感性,揭示了与特征表示在推理时如何与分类器头部交互相关的系统性算法优势和弱点。这些发现为少样本方法在音频中的行为提供了新的见解,并强调了在评估FSC模型时,需要明确探测上下文依赖性的基准。
🔬 方法详解
问题定义:论文旨在解决少样本音频分类中模型过度依赖上下文线索,即捷径学习的问题。现有方法在评估时通常忽略了音频数据中前景事件和背景环境之间的潜在相关性,导致模型在实际应用中泛化能力不足。现有音频基准缺乏对上下文结构的有效控制,难以评估模型对虚假相关性的鲁棒性。
核心思路:论文的核心思路是构建一个可控的音频基准,允许研究人员系统地评估少样本分类模型对上下文变化的敏感性。通过人为引入或移除前景事件和背景环境之间的相关性,可以分析模型是否过度依赖这些虚假相关性进行分类。
技术框架:SpurAudio基准的核心在于其数据组织方式,它将音频数据分解为前景事件(例如,狗叫、汽车鸣笛)和背景环境(例如,公园、街道)。基准提供多种配置,允许研究人员控制支持集和查询集之间背景环境的匹配程度。例如,可以设置支持集和查询集具有相同的背景环境,也可以设置它们具有完全不同的背景环境。通过比较不同配置下的模型性能,可以评估模型对背景相关性的依赖程度。
关键创新:SpurAudio的关键创新在于其对音频数据中上下文信息的显式控制。与传统的音频分类基准不同,SpurAudio允许研究人员系统地操纵前景事件和背景环境之间的关系,从而能够更深入地理解模型在少样本学习过程中的行为。这种可控性使得研究人员能够识别模型中的潜在偏差,并开发更鲁棒的少样本分类算法。
关键设计:SpurAudio基准的设计考虑了多种因素,包括数据集的大小、音频数据的质量以及背景环境的多样性。基准包含多个音频类别,每个类别都包含多个前景事件和背景环境。为了确保数据的质量,论文作者对所有音频数据进行了人工审核。此外,基准还提供了多种评估指标,包括准确率、召回率和F1值,以便研究人员全面评估模型的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,许多先进的少样本音频分类方法在SpurAudio基准上表现出显著的性能下降,尤其是在背景相关性被破坏时。即使是大型预训练音频模型也未能幸免。此外,研究还发现,在传统基准上表现相似的方法,在SpurAudio上的表现差异很大,揭示了不同算法对虚假相关性的敏感程度不同。
🎯 应用场景
该研究成果可应用于开发更鲁棒的音频分类系统,例如智能安防、环境监测和语音助手等领域。通过减少模型对虚假相关性的依赖,可以提高其在真实场景中的泛化能力和可靠性,从而提升用户体验和系统性能。
📄 摘要(原文)
Few-shot classification (FSC) is widely used for learning from limited labeled data, yet most evaluations implicitly assume that target concepts are independent of contextual cues. In real-world settings, however, examples often appear within rich contexts, allowing models to exploit spurious correlations between foreground content and background signals. While such effects have been studied in few-shot image classification, their role in few-shot audio classification remains largely unexplored, and existing audio benchmarks offer limited control over contextual structure. We introduce SpurAudio, a benchmark that leverages the natural separability of foreground events and background environments in audio to enable controlled, multi-level evaluation of contextual shifts across support and query sets. Using this benchmark, we show that many state-of-the-art few-shot methods suffer severe performance degradation when background correlations are disrupted, despite achieving similar accuracy under standard evaluation protocols. Crucially, this vulnerability persists even in large pretrained audio foundation models, ruling out limited backbone capacity as an explanation. Moreover, methods that appear comparable under conventional benchmarks can exhibit markedly different sensitivity to spurious correlations, revealing systematic algorithmic strengths and vulnerabilities tied to how feature representations interact with classifier heads at inference time. These findings provide new insight into the behavior of few-shot methods in audio and highlight the need for benchmarks that explicitly probe context dependence when evaluating FSC models.