Adaptive Knowledge Distillation using a Device-Aware Teacher for Low-Complexity Acoustic Scene Classification
作者: Seung Gyu Jeong, Seong Eun Kim
分类: cs.SD, cs.AI
发布日期: 2025-09-11
💡 一句话要点
提出基于设备感知教师的自适应知识蒸馏方法,用于低复杂度声场景分类。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 声场景分类 知识蒸馏 设备鲁棒性 特征对齐 低复杂度模型
📋 核心要点
- 现有声场景分类方法在低复杂度约束下,难以保证对不同设备的鲁棒泛化能力,尤其是在未见设备上。
- 提出一种基于知识蒸馏的框架,利用双教师集成模型指导学生模型学习,并引入设备感知特征对齐损失来增强泛化能力。
- 实验结果表明,该方法在DCASE 2025挑战赛的开发集上,显著优于官方基线,尤其是在未见设备上的性能提升明显。
📝 摘要(中文)
本技术报告描述了我们为DCASE 2025挑战赛的任务1(低复杂度设备鲁棒声场景分类)提交的方案。我们的工作旨在应对严格的复杂度约束以及对已见和未见设备的鲁棒泛化的双重挑战,同时利用了允许在测试时使用设备标签的新规则。我们提出的系统基于知识蒸馏框架,其中高效的CP-MobileNet学生模型从紧凑的、专门的双教师集成模型中学习。该集成模型结合了使用标准交叉熵训练的基线PaSST教师模型和一个“泛化专家”教师模型。该专家教师模型使用我们新颖的设备感知特征对齐(DAFA)损失进行训练,该损失改编自先前的工作,明确地构建了特征空间以提高设备鲁棒性。为了利用测试时设备标签的可用性,经过蒸馏的学生模型随后会经历最终的设备特定微调阶段。我们提出的系统在开发集上实现了57.93%的最终准确率,表明与官方基线相比有了显着提高,尤其是在未见设备上。
🔬 方法详解
问题定义:论文旨在解决低复杂度约束下,声场景分类模型在面对不同设备时,尤其是未见设备,泛化能力不足的问题。现有方法难以同时满足低复杂度和设备鲁棒性的要求,导致模型在实际应用中性能下降。
核心思路:论文的核心思路是利用知识蒸馏,将一个具有较好泛化能力的双教师集成模型的知识迁移到一个低复杂度的学生模型中。通过精心设计的损失函数和训练策略,使学生模型能够学习到教师模型的设备不变性特征,从而提高其在不同设备上的鲁棒性。
技术框架:整体框架包含三个主要阶段:1) 双教师集成模型的训练,包括一个基线PaSST教师和一个使用DAFA损失训练的“泛化专家”教师;2) 知识蒸馏,使用训练好的教师模型指导CP-MobileNet学生模型的学习;3) 设备特定微调,利用测试时可用的设备标签,对学生模型进行针对性微调。
关键创新:论文的关键创新在于提出了设备感知特征对齐(DAFA)损失。该损失函数显式地将特征空间结构化,使得来自不同设备的相同场景的特征更加接近,从而增强模型的设备不变性。此外,双教师集成策略也提高了教师模型的泛化能力,为学生模型的学习提供了更好的指导。
关键设计:DAFA损失的具体形式未知,但其核心思想是拉近同一场景不同设备特征的距离,可能涉及到对比学习或度量学习等技术。学生模型采用CP-MobileNet,这是一种轻量级的网络结构,满足低复杂度的要求。设备特定微调阶段,可能采用不同的学习率或数据增强策略,以适应不同设备的特性。
📊 实验亮点
该方法在DCASE 2025挑战赛的开发集上取得了显著的性能提升,最终准确率达到57.93%,优于官方基线。尤其是在未见设备上的性能提升更为明显,表明该方法在提高设备鲁棒性方面具有显著优势。这验证了所提出的知识蒸馏框架和设备感知特征对齐损失的有效性。
🎯 应用场景
该研究成果可应用于各种需要低复杂度、设备鲁棒性的声场景分类应用中,例如智能家居设备、移动设备上的环境感知、可穿戴设备的辅助功能等。通过提高模型在不同设备上的泛化能力,可以提升用户体验,并降低部署成本。未来,该方法可以扩展到其他音频任务,如语音识别、声音事件检测等。
📄 摘要(原文)
In this technical report, we describe our submission for Task 1, Low-Complexity Device-Robust Acoustic Scene Classification, of the DCASE 2025 Challenge. Our work tackles the dual challenges of strict complexity constraints and robust generalization to both seen and unseen devices, while also leveraging the new rule allowing the use of device labels at test time. Our proposed system is based on a knowledge distillation framework where an efficient CP-MobileNet student learns from a compact, specialized two-teacher ensemble. This ensemble combines a baseline PaSST teacher, trained with standard cross-entropy, and a 'generalization expert' teacher. This expert is trained using our novel Device-Aware Feature Alignment (DAFA) loss, adapted from prior work, which explicitly structures the feature space for device robustness. To capitalize on the availability of test-time device labels, the distilled student model then undergoes a final device-specific fine-tuning stage. Our proposed system achieves a final accuracy of 57.93\% on the development set, demonstrating a significant improvement over the official baseline, particularly on unseen devices.