Make a Strong Teacher with Label Assistance: A Novel Knowledge Distillation Approach for Semantic Segmentation

📄 arXiv: 2407.13254v1 📥 PDF

作者: Shoumeng Qiu, Jie Chen, Xinrun Li, Ru Wan, Xiangyang Xue, Jian Pu

分类: cs.CV

发布日期: 2024-07-18

期刊: ECCV 2024

🔗 代码/项目: GITHUB


💡 一句话要点

提出标签辅助蒸馏(LAD)方法,提升语义分割任务中轻量级教师模型的知识蒸馏效果。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 语义分割 知识蒸馏 标签辅助 轻量级模型 一致性训练

📋 核心要点

  1. 现有知识蒸馏方法依赖于强大的教师模型或额外模态信息,增加了复杂性和成本,限制了轻量级教师模型的应用。
  2. 论文提出标签辅助蒸馏(LAD)方法,通过对标签进行噪声处理并融入输入,提升轻量级教师模型的性能。
  3. 在五个数据集和五个模型上的实验表明,LAD方法有效提升了知识蒸馏效果,并具有良好的泛化能力。

📝 摘要(中文)

本文提出了一种用于语义分割任务的新型知识蒸馏方法。与依赖于预训练的强大教师模型或其他模态提供额外知识的现有方法不同,我们的方法不需要复杂的教师模型或来自额外传感器的信息。具体来说,对于教师模型的训练,我们提出对标签进行噪声处理,然后将其合并到输入中,以有效地提升轻量级教师模型的性能。为了确保教师模型对引入的噪声具有鲁棒性,我们提出了一种双路径一致性训练策略,该策略具有两个路径输出之间的距离损失。对于学生模型的训练,我们保持其与标准蒸馏一致,以保持简单性。我们的方法不仅提高了知识蒸馏的效率,而且增加了选择教师和学生模型的灵活性。为了证明我们的标签辅助蒸馏(LAD)方法的优势,我们在五个具有挑战性的数据集(包括Cityscapes、ADE20K、PASCAL-VOC、COCO-Stuff 10K和COCO-Stuff 164K)以及五个流行的模型(FCN、PSPNet、DeepLabV3、STDC和OCRNet)上进行了广泛的实验,结果表明了我们方法的有效性和泛化性。我们认为,正如我们的工作所证明的那样,将标签合并到输入中将为相关领域提供有价值的见解。代码可在https://github.com/skyshoumeng/Label_Assisted_Distillation获得。

🔬 方法详解

问题定义:现有知识蒸馏方法在语义分割任务中,通常需要预训练的强大教师模型或依赖额外的模态信息,这增加了计算成本和模型复杂度。轻量级教师模型的性能提升有限,阻碍了其在资源受限场景下的应用。因此,如何有效地提升轻量级教师模型的知识蒸馏效果是一个关键问题。

核心思路:论文的核心思路是通过将噪声化的标签信息融入到教师模型的输入中,从而增强教师模型的学习能力。这种方法模拟了教师模型在训练过程中遇到的不确定性,迫使其学习更鲁棒的特征表示。同时,通过双路径一致性训练,保证教师模型对噪声的鲁棒性,避免过拟合。

技术框架:LAD方法的整体框架包括两个主要阶段:教师模型训练和学生模型训练。在教师模型训练阶段,首先对原始标签进行噪声处理,然后将噪声标签与原始输入图像拼接在一起,作为教师模型的输入。教师模型采用双路径结构,两条路径共享相同的网络结构,但输入略有不同(例如,噪声标签的噪声程度不同)。通过计算两条路径输出之间的距离损失,实现一致性训练。在学生模型训练阶段,采用标准的知识蒸馏方法,利用教师模型的输出作为软标签,指导学生模型的学习。

关键创新:LAD方法最重要的创新点在于将噪声化的标签信息融入到输入中,以此来提升教师模型的学习能力。与传统的知识蒸馏方法相比,LAD方法不需要复杂的教师模型或额外的模态信息,降低了计算成本和模型复杂度。此外,双路径一致性训练策略保证了教师模型对噪声的鲁棒性,避免了过拟合。

关键设计:在教师模型训练阶段,噪声标签的生成方式是一个关键设计。论文中可能采用了多种噪声生成策略,例如随机翻转标签、随机擦除标签等。双路径一致性训练中的距离损失函数也至关重要,常用的距离损失函数包括L1损失、L2损失、KL散度等。此外,噪声的强度和双路径之间的差异程度也需要仔细调整,以达到最佳的训练效果。学生模型的训练则采用标准的知识蒸馏方法,损失函数通常包括交叉熵损失和软标签损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LAD方法在Cityscapes、ADE20K、PASCAL-VOC、COCO-Stuff 10K和COCO-Stuff 164K等五个数据集上均取得了显著的性能提升。例如,在Cityscapes数据集上,使用LAD方法训练的轻量级教师模型,其性能优于使用传统知识蒸馏方法训练的教师模型。此外,LAD方法在不同的模型结构(FCN、PSPNet、DeepLabV3、STDC和OCRNet)上均表现出良好的泛化能力。

🎯 应用场景

该研究成果可应用于自动驾驶、遥感图像分析、医疗图像分割等领域。通过知识蒸馏,可以将复杂的语义分割模型部署到资源受限的设备上,例如移动设备或嵌入式系统,实现高效的实时图像理解。该方法还有助于提升模型的鲁棒性和泛化能力,使其在复杂场景下也能保持良好的性能。

📄 摘要(原文)

In this paper, we introduce a novel knowledge distillation approach for the semantic segmentation task. Unlike previous methods that rely on power-trained teachers or other modalities to provide additional knowledge, our approach does not require complex teacher models or information from extra sensors. Specifically, for the teacher model training, we propose to noise the label and then incorporate it into input to effectively boost the lightweight teacher performance. To ensure the robustness of the teacher model against the introduced noise, we propose a dual-path consistency training strategy featuring a distance loss between the outputs of two paths. For the student model training, we keep it consistent with the standard distillation for simplicity. Our approach not only boosts the efficacy of knowledge distillation but also increases the flexibility in selecting teacher and student models. To demonstrate the advantages of our Label Assisted Distillation (LAD) method, we conduct extensive experiments on five challenging datasets including Cityscapes, ADE20K, PASCAL-VOC, COCO-Stuff 10K, and COCO-Stuff 164K, five popular models: FCN, PSPNet, DeepLabV3, STDC, and OCRNet, and results show the effectiveness and generalization of our approach. We posit that incorporating labels into the input, as demonstrated in our work, will provide valuable insights into related fields. Code is available at https://github.com/skyshoumeng/Label_Assisted_Distillation.