Sharpening Lightweight Models for Generalized Polyp Segmentation: A Boundary Guided Distillation from Foundation Models

📄 arXiv: 2604.17865v1 📥 PDF

作者: Shivanshu Agnihotri, Snehashis Majhi, Deepak Ranjan Nayak

分类: cs.CV

发布日期: 2026-04-20

🔗 代码/项目: GITHUB


💡 一句话要点

LiteBounD:通过边界引导蒸馏,增强轻量级模型在息肉分割中的泛化能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 息肉分割 知识蒸馏 视觉基础模型 边界引导 轻量级模型

📋 核心要点

  1. 现有轻量级息肉分割模型难以捕捉复杂息肉区域的语义和结构信息,而大型视觉基础模型迁移效果不佳且计算成本高昂。
  2. LiteBounD通过双路径蒸馏、频率感知对齐和边界感知解码器,将视觉基础模型的语义和边界先验知识迁移到轻量级模型。
  3. 实验表明,LiteBounD在多个数据集上显著优于轻量级基线,并达到与先进方法相当的性能,同时保持了高效性。

📝 摘要(中文)

自动化息肉分割对于结直肠癌的早期检测和预防至关重要,但由于边界模糊、外观差异大和标注数据有限而仍然具有挑战性。诸如U-Net、U-Net++和PraNet等轻量级分割模型在临床部署中具有实际效率,但难以捕捉准确描绘复杂息肉区域所需的丰富语义和结构线索。相比之下,包括SAM、OneFormer、Mask2Former和DINOv2在内的大型视觉基础模型(VFMs)表现出强大的泛化能力,但由于领域不匹配、边界敏感性不足和高计算成本,迁移到息肉分割的效果不佳。为了弥合这一差距,我们提出了LiteBounD,一个轻量级边界引导蒸馏框架,它将来自多个VFMs的互补语义和结构先验知识转移到紧凑的分割骨干网络中。LiteBounD引入了(i)一种解耦语义和边界感知表示的双路径蒸馏机制,(ii)一种分别监督低频全局语义和高频边界细节的频率感知对齐策略,以及(iii)一种边界感知解码器,它融合多尺度编码器特征与蒸馏的语义丰富的边界信息,以实现精确分割。在已见(Kvasir-SEG, CVC-ClinicDB)和未见(ColonDB, CVC-300, ETIS)数据集上的大量实验表明,LiteBounD始终显著优于其轻量级基线,并实现了与最先进方法相媲美的性能,同时保持了实时临床使用所需的效率。

🔬 方法详解

问题定义:论文旨在解决轻量级息肉分割模型在泛化能力上的不足。现有方法要么精度不足,无法有效分割复杂息肉;要么计算成本过高,难以在临床实际应用中部署。大型视觉基础模型虽然具有较强的泛化能力,但直接应用于息肉分割时,由于领域差异和边界敏感性不足,效果不佳。

核心思路:论文的核心思路是通过知识蒸馏,将大型视觉基础模型(VFMs)的语义和结构信息迁移到轻量级分割模型中,从而提升轻量级模型在息肉分割任务上的性能和泛化能力。特别强调对边界信息的利用,因为息肉的边界往往比较模糊,是分割的难点。

技术框架:LiteBounD框架包含以下几个主要模块:1) 双路径蒸馏机制:分别提取VFMs的语义和边界信息。2) 频率感知对齐策略:对低频全局语义和高频边界细节进行分别监督,确保轻量级模型能够学习到VFMs的全局语义信息和局部边界细节。3) 边界感知解码器:将多尺度编码器特征与蒸馏的边界信息融合,以提高分割精度。整体流程是从VFMs提取知识,然后通过设计的蒸馏策略将知识迁移到轻量级模型,最后利用边界感知解码器进行精确分割。

关键创新:该论文的关键创新在于提出了一个轻量级边界引导蒸馏框架,该框架能够有效地将大型视觉基础模型的知识迁移到轻量级模型中,同时特别关注了边界信息的利用。双路径蒸馏机制和频率感知对齐策略是实现这一目标的关键技术手段。

关键设计:在双路径蒸馏中,使用了不同的损失函数来分别监督语义和边界信息的学习。频率感知对齐策略中,使用了频率域变换来分离低频和高频信息,并分别进行监督。边界感知解码器中,使用了注意力机制来融合多尺度特征和边界信息。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LiteBounD在多个息肉分割数据集上都取得了显著的性能提升。例如,在未见数据集上,LiteBounD相比于轻量级基线模型有显著的提升,并且能够达到与一些先进方法相媲美的性能,同时保持了较高的运行效率,满足实时临床应用的需求。

🎯 应用场景

该研究成果可应用于结直肠癌的早期筛查和诊断,通过提高息肉分割的准确性和效率,辅助医生进行更精确的诊断,降低漏诊率,从而改善患者的预后。该方法具有轻量化的特点,更易于在临床环境中部署和应用,具有重要的实际应用价值。

📄 摘要(原文)

Automated polyp segmentation is critical for early colorectal cancer detection and its prevention, yet remains challenging due to weak boundaries, large appearance variations, and limited annotated data. Lightweight segmentation models such as U-Net, U-Net++, and PraNet offer practical efficiency for clinical deployment but struggle to capture the rich semantic and structural cues required for accurate delineation of complex polyp regions. In contrast, large Vision Foundation Models (VFMs), including SAM, OneFormer, Mask2Former, and DINOv2, exhibit strong generalization but transfer poorly to polyp segmentation due to domain mismatch, insufficient boundary sensitivity, and high computational cost. To bridge this gap, we propose \textit{\textbf{LiteBounD}, a \underline{Li}gh\underline{t}w\underline{e}ight \underline{Boun}dary-guided \underline{D}istillation} framework that transfers complementary semantic and structural priors from multiple VFMs into compact segmentation backbones. LiteBounD introduces (i) a dual-path distillation mechanism that disentangles semantic and boundary-aware representations, (ii) a frequency-aware alignment strategy that supervises low-frequency global semantics and high-frequency boundary details separately, and (iii) a boundary-aware decoder that fuses multi-scale encoder features with distilled semantically rich boundary information for precise segmentation. Extensive experiments on both seen (Kvasir-SEG, CVC-ClinicDB) and unseen (ColonDB, CVC-300, ETIS) datasets demonstrate that LiteBounD consistently outperforms its lightweight baselines by a significant margin and achieves performance competitive with state-of-the-art methods, while maintaining the efficiency required for real-time clinical use. Our code is available at https://github.com/lostinrepo/LiteBounD.