Adaptive Test-Time Scaling for Zero-Shot Respiratory Audio Classification

📄 arXiv: 2604.12647v1 📥 PDF

作者: Tsai-Ning Wang, Herman Teun den Dekker, Lin-Lin Chen, Neil Zeghidour, Aaqib Saeed

分类: cs.SD, cs.CL

发布日期: 2026-04-14

备注: Accepted at AHLI CHIL 2026


💡 一句话要点

提出TRIAGE框架,自适应调整呼吸音频零样本分类的计算量

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 零样本学习 呼吸音频分类 自适应计算 分层推理 音频文本嵌入

📋 核心要点

  1. 呼吸音频分析面临标注数据稀缺和专家标注成本高昂的挑战。
  2. TRIAGE框架通过分层推理和置信度路由,自适应地分配计算资源。
  3. 实验表明,TRIAGE在零样本呼吸音频分类任务上优于现有方法。

📝 摘要(中文)

自动呼吸音频分析有望实现可扩展的非侵入式疾病筛查,但受限于稀缺的标注数据和昂贵的专家标注。零样本推理无需任务特定的监督,但现有方法对每个输入都采用统一的计算量,忽略了难易程度的差异。我们提出了TRIAGE,一个分层零样本框架,通过逐步丰富的推理阶段自适应地调整测试时的计算量:在联合音频-文本嵌入空间中进行快速标签-余弦评分(Tier-L),使用临床医生风格的描述符进行结构化匹配(Tier-M),以及检索增强的大型语言模型推理(Tier-H)。基于置信度的路由器提前完成简单预测,同时为模糊的输入分配额外的计算量,使得近一半的样本能够在最便宜的层退出。在没有任务特定训练的情况下,TRIAGE在九个呼吸分类任务上实现了0.744的平均AUROC,优于先前的零样本方法,并在多个任务上匹配或超过了监督基线。我们的分析表明,测试时缩放将增益集中在重要的地方:不确定的病例相对改善高达19%,而自信的预测保持不变,且成本极低。

🔬 方法详解

问题定义:论文旨在解决呼吸音频的零样本分类问题。现有零样本方法对所有样本采用统一的计算量,忽略了样本难易程度的差异,导致计算资源的浪费和性能瓶颈。对于容易分类的样本,过多的计算是冗余的;而对于难以分类的样本,则需要更多的计算资源进行更深入的分析。

核心思路:论文的核心思路是根据样本的难易程度,自适应地调整测试时的计算量。通过分层推理,先用简单的模型进行快速判断,对于难以判断的样本,再使用更复杂的模型进行深入分析。这种方法可以在保证性能的同时,降低计算成本。

技术框架:TRIAGE框架包含三个主要层级:Tier-L、Tier-M和Tier-H。Tier-L使用联合音频-文本嵌入空间中的标签-余弦相似度进行快速分类;Tier-M使用临床医生风格的描述符进行结构化匹配;Tier-H使用检索增强的大型语言模型进行推理。一个基于置信度的路由器根据每一层的输出置信度,决定样本是否可以提前退出,或者需要进入下一层进行更深入的分析。

关键创新:TRIAGE的关键创新在于自适应的计算量分配机制。它不是对所有样本都采用相同的计算量,而是根据样本的难易程度,动态地调整计算资源。这种方法可以有效地提高计算效率,并在保证性能的同时,降低计算成本。此外,分层推理的设计也使得模型可以逐步地进行更深入的分析,从而提高分类的准确性。

关键设计:置信度路由器的设计是TRIAGE的关键。路由器根据每一层的输出置信度,决定样本是否可以提前退出。置信度的计算方式未知,但其阈值设置会直接影响计算效率和分类准确性。此外,每一层所使用的模型和特征也需要精心设计,以保证在不同计算量下都能获得较好的性能。具体损失函数和网络结构等细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TRIAGE在九个呼吸分类任务上实现了0.744的平均AUROC,优于先前的零样本方法,并在多个任务上匹配或超过了监督基线。对于不确定的病例,TRIAGE的性能相对改善高达19%,而对于自信的预测,性能保持不变,且计算成本极低。这些结果表明,TRIAGE能够有效地提高零样本呼吸音频分类的性能和效率。

🎯 应用场景

该研究成果可应用于大规模呼吸道疾病的自动筛查,尤其是在资源有限的场景下。通过自适应的计算量分配,可以降低计算成本,提高筛查效率。此外,该方法还可以扩展到其他类型的音频分类任务,例如语音识别、音乐分类等。

📄 摘要(原文)

Automated respiratory audio analysis promises scalable, non-invasive disease screening, yet progress is limited by scarce labeled data and costly expert annotation. Zero-shot inference eliminates task-specific supervision, but existing methods apply uniform computation to every input regardless of difficulty. We introduce TRIAGE, a tiered zero-shot framework that adaptively scales test-time compute by routing each audio sample through progressively richer reasoning stages: fast label-cosine scoring in a joint audio-text embedding space (Tier-L), structured matching with clinician-style descriptors (Tier-M), and retrieval-augmented large language model reasoning (Tier-H). A confidence-based router finalizes easy predictions early while allocating additional computation to ambiguous inputs, enabling nearly half of all samples to exit at the cheapest tier. Across nine respiratory classification tasks without task-specific training, TRIAGE achieves a mean AUROC of 0.744, outperforming prior zero-shot methods and matching or exceeding supervised baselines on multiple tasks. Our analysis show that test-time scaling concentrates gains where they matter: uncertain cases see up to 19% relative improvement while confident predictions remain unchanged at minimal cost.