The Surprising Effectiveness of Canonical Knowledge Distillation for Semantic Segmentation

作者: Muhammad Ali, Kevin Alexander Laube, Madan Ravi Ganesh, Lukas Schott, Niclas Popp, Thomas Brox

分类: cs.CV, cs.AI

发布日期: 2026-04-28

备注: Presented at Efficient Computer Vision (ECV) Workshop, CVPR 2026 (non-archival). 5 pages, 3 figures

💡 一句话要点

经典知识蒸馏方法在语义分割任务上表现出惊人的有效性

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 语义分割 知识蒸馏 模型压缩 轻量化网络 计算效率

📋 核心要点

现有的语义分割知识蒸馏方法过度依赖复杂的手工设计损失函数，忽略了计算成本的影响，导致评估不公平。
论文核心思想是，在相同计算资源下，经典的logits和特征蒸馏方法优于最新的分割特定方法，无需复杂设计。
实验结果表明，通过扩展训练，经典特征蒸馏方法在Cityscapes和ADE20K数据集上取得了ResNet-18的最优性能。

📝 摘要（中文）

针对语义分割的知识蒸馏(KD)方法，通常采用日益复杂的手工设计的损失函数，但评估时却常使用固定的迭代次数。这些复杂的目标函数显著增加了每次迭代的成本，意味着相同的迭代次数并不对应相同的训练预算。本文表明，基于迭代次数的比较具有误导性：当匹配实际训练时间时，经典的基于logits和特征的KD方法优于最近提出的特定于分割的方法。在扩展训练下，基于特征的蒸馏在Cityscapes和ADE20K上实现了最先进的ResNet-18性能。一个PSPNet ResNet-18学生网络，仅使用教师ResNet-101四分之一的参数，在Cityscapes上达到了教师网络mIoU的99%（79.0 vs. 79.8），在ADE20K上达到了92%。我们的结果挑战了当前关于分割的KD需要特定于任务的机制的假设，并表明扩展训练，而不是复杂的手工设计的目标函数，应该指导未来的方法设计。

🔬 方法详解

问题定义：现有语义分割知识蒸馏方法为了追求性能提升，往往设计复杂的、特定于任务的损失函数。然而，这些复杂损失函数增加了每次迭代的计算成本，使得基于迭代次数的比较变得不公平。现有方法忽略了实际训练时间（wall-clock time）的影响，无法公平地评估不同蒸馏方法的有效性。

核心思路：论文的核心思路是，在控制计算资源消耗相同的情况下，重新评估经典知识蒸馏方法（如基于logits和特征的蒸馏）在语义分割任务中的表现。作者认为，与其花费大量精力设计复杂的损失函数，不如将计算资源投入到更长时间的训练中，经典方法也能取得优异的结果。

技术框架：论文采用标准的知识蒸馏框架，包括教师网络和学生网络。教师网络是一个预训练好的大型网络（如ResNet-101），学生网络是一个较小的网络（如ResNet-18或PSPNet ResNet-18）。知识蒸馏过程包括两个损失函数：一个是学生网络自身的分割损失函数（例如交叉熵损失），另一个是知识蒸馏损失函数，用于衡量学生网络和教师网络输出之间的差异。

关键创新：论文最重要的创新在于，它挑战了当前语义分割知识蒸馏领域的主流观点，即需要设计复杂的、特定于任务的损失函数才能取得好的效果。论文表明，在控制计算资源消耗相同的情况下，经典的知识蒸馏方法，甚至比最新的方法表现更好。这说明，扩展训练时间，而不是复杂的设计，才是提升知识蒸馏效果的关键。

关键设计：论文的关键设计在于，它强调了在相同计算资源下进行公平比较的重要性。具体来说，论文通过控制训练时间（wall-clock time）来确保不同方法之间的比较是公平的。论文使用了经典的logits蒸馏和特征蒸馏方法，并探索了不同的训练策略和超参数设置。此外，论文还研究了不同网络结构（如ResNet-18和PSPNet ResNet-18）作为学生网络时的性能表现。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在Cityscapes数据集上，使用ResNet-18作为学生网络，通过扩展训练，基于特征的知识蒸馏方法达到了最先进的性能。更令人惊讶的是，使用PSPNet ResNet-18作为学生网络，仅使用教师ResNet-101四分之一的参数，在Cityscapes上达到了教师网络mIoU的99%（79.0 vs. 79.8），在ADE20K上达到了92%。

🎯 应用场景

该研究成果对语义分割模型的轻量化和部署具有重要意义。通过知识蒸馏，可以将大型、复杂的教师网络知识迁移到小型、高效的学生网络，从而在资源受限的设备上实现高性能的语义分割。这在自动驾驶、机器人导航、移动设备图像处理等领域具有广泛的应用前景。

📄 摘要（原文）

Recent knowledge distillation (KD) methods for semantic segmentation introduce increasingly complex hand-crafted objectives, yet are typically evaluated under fixed iteration schedules. These objectives substantially increase per-iteration cost, meaning equal iteration counts do not correspond to equal training budgets. It is therefore unclear whether reported gains reflect stronger distillation signals or simply greater compute. We show that iteration-based comparisons are misleading: when wall-clock compute is matched, \textit{canonical} logit- and feature-based KD outperform recent segmentation-specific methods. Under extended training, feature-based distillation achieves state-of-the-art ResNet-18 performance on Cityscapes and ADE20K. A PSPNet ResNet-18 student closely approaches its ResNet-101 teacher despite using only one quarter of the parameters, reaching 99\% of the teacher's mIoU on Cityscapes (79.0 vs.\ 79.8) and 92\% on ADE20K. Our results challenge the prevailing assumption that KD for segmentation requires task-specific mechanisms and suggest that scaling, rather than complex hand-crafted objectives, should guide future method design.

The Surprising Effectiveness of Canonical Knowledge Distillation for Semantic Segmentation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理