Improving Respiratory Sound Classification with Architecture-Agnostic Knowledge Distillation from Ensembles

📄 arXiv: 2505.22027v1 📥 PDF

作者: Miika Toikkanen, June-Woo Kim

分类: cs.SD, cs.AI, eess.AS

发布日期: 2025-05-28

备注: Accepted to Interspeech 2025


💡 一句话要点

利用架构无关的集成知识蒸馏提升呼吸音分类性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 呼吸音分类 知识蒸馏 软标签 集成学习 迁移学习

📋 核心要点

  1. 呼吸音数据集规模和质量受限,导致模型性能提升困难,是呼吸音分类面临的核心问题。
  2. 论文提出一种架构无关的知识蒸馏方法,利用软标签将集成教师模型的知识迁移到学生模型。
  3. 实验结果表明,即使使用单个教师模型,也能显著提升学生模型的性能,并在ICHBI数据集上取得了新的SOTA。

📝 摘要(中文)

呼吸音数据集在规模和质量上存在限制,导致难以获得高性能。集成模型有所帮助,但不可避免地增加了推理时的计算成本。软标签训练能够有效地进行知识蒸馏,仅在训练时产生额外成本。本研究探索了软标签在呼吸音分类中的应用,作为一种架构无关的方法,将教师模型的集成知识提炼到学生模型中。我们研究了该方法的不同变体,发现即使是与学生模型相同的单个教师模型,也能显著提高性能,而使用少量教师模型可以获得最佳增益。我们在ICHBI数据集上实现了64.39的新SOTA分数,超过了之前的最佳成绩0.85,并且在不同架构上的平均分数提高了1.16以上。我们的结果突出了使用软标签进行知识蒸馏在呼吸音分类中的有效性,而与模型大小或架构无关。

🔬 方法详解

问题定义:呼吸音分类任务面临数据量小、质量参差不齐的挑战,导致模型泛化能力受限。集成模型虽然可以提升性能,但推理阶段的计算成本显著增加,难以部署到资源受限的设备上。因此,如何在不增加推理成本的前提下,提升呼吸音分类的准确率是本研究要解决的问题。

核心思路:论文的核心思路是利用知识蒸馏技术,将多个教师模型的知识(以软标签的形式)迁移到一个学生模型中。软标签包含了教师模型对样本的概率分布信息,相比于硬标签,能够提供更丰富的知识,从而提升学生模型的性能。这种方法旨在利用集成模型的优势,同时避免其推理成本高的缺点。

技术框架:整体框架包含教师模型训练和学生模型训练两个阶段。首先,训练多个教师模型,这些模型可以是相同或不同的架构。然后,利用这些教师模型对训练数据进行预测,生成软标签。最后,使用软标签和原始硬标签共同训练学生模型。学生模型的损失函数通常包含两部分:一部分是基于硬标签的交叉熵损失,另一部分是基于软标签的KL散度损失。

关键创新:该研究的关键创新在于将架构无关的知识蒸馏方法应用于呼吸音分类任务。传统的知识蒸馏方法通常需要精心设计教师模型和学生模型的架构,而该研究表明,即使使用与学生模型相同的教师模型,也能显著提升性能。这大大简化了知识蒸馏的流程,使其更容易应用于不同的呼吸音分类场景。

关键设计:论文探索了不同的教师模型数量和软标签的权重对学生模型性能的影响。实验结果表明,使用少量教师模型即可获得最佳性能。此外,论文还研究了不同的损失函数组合方式,例如,调整硬标签损失和软标签损失的权重。具体的网络结构和参数设置在论文中没有详细描述,属于架构无关的部分,可以根据具体应用场景进行选择。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究在ICHBI数据集上取得了显著的性能提升,达到了64.39的新SOTA分数,超过了之前的最佳成绩0.85。更重要的是,该方法在不同架构上的平均分数提高了1.16以上,表明其具有较强的泛化能力。实验结果还表明,即使使用与学生模型相同的单个教师模型,也能显著提升性能,这进一步验证了知识蒸馏的有效性。

🎯 应用场景

该研究成果可应用于智能听诊器、远程医疗诊断、呼吸系统疾病的早期筛查等领域。通过将复杂的集成模型知识提炼到轻量级的学生模型中,可以实现高性能且低功耗的呼吸音分类,方便部署到移动设备或嵌入式系统中,为患者提供便捷的健康监测服务,并降低医疗成本。

📄 摘要(原文)

Respiratory sound datasets are limited in size and quality, making high performance difficult to achieve. Ensemble models help but inevitably increase compute cost at inference time. Soft label training distills knowledge efficiently with extra cost only at training. In this study, we explore soft labels for respiratory sound classification as an architecture-agnostic approach to distill an ensemble of teacher models into a student model. We examine different variations of our approach and find that even a single teacher, identical to the student, considerably improves performance beyond its own capability, with optimal gains achieved using only a few teachers. We achieve the new state-of-the-art Score of 64.39 on ICHBI, surpassing the previous best by 0.85 and improving average Scores across architectures by more than 1.16. Our results highlight the effectiveness of knowledge distillation with soft labels for respiratory sound classification, regardless of size or architecture.