ConStruct: Structural Distillation of Foundation Models for Prototype-Based Weakly Supervised Histopathology Segmentation

📄 arXiv: 2512.10316v1 📥 PDF

作者: Khang Le, Ha Thach, Anh M. Vu, Trang T. K. Vo, Han H. Huynh, David Yang, Minh H. N. Le, Thanh-Huy Nguyen, Akash Awasthi, Chandra Mohan, Zhu Han, Hien Van Nguyen

分类: cs.CV

发布日期: 2025-12-11


💡 一句话要点

ConStruct:利用结构蒸馏和原型学习,实现基于弱监督的组织病理学分割

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 弱监督语义分割 组织病理学 原型学习 结构蒸馏 视觉-语言模型

📋 核心要点

  1. 现有WSSS方法在组织病理学图像中难以捕捉完整组织结构,仅关注最具区分性的区域。
  2. 提出ConStruct框架,结合CONCH的形态感知表示、SegFormer的结构线索和文本引导的语义对齐,进行原型学习。
  3. 实验表明,该框架在BCSS-WSSS数据集上优于现有WSSS方法,且计算效率高,能生成高质量伪掩码。

📝 摘要(中文)

组织病理学中的弱监督语义分割(WSSS)严重依赖于分类骨干网络,但这些模型通常只定位最具区分性的区域,难以捕捉组织结构的完整空间范围。诸如CONCH之类的视觉-语言模型提供了丰富的语义对齐和形态感知表示,而像SegFormer这样的现代分割骨干网络则保留了细粒度的空间线索。然而,结合这些互补优势仍然具有挑战性,尤其是在弱监督和没有密集标注的情况下。我们提出了一种用于组织病理学图像WSSS的原型学习框架,该框架集成了来自CONCH的形态感知表示、来自SegFormer的多尺度结构线索以及文本引导的语义对齐,以生成在语义上具有区分性且在空间上连贯的原型。为了有效地利用这些异构来源,我们引入了文本引导的原型初始化,该初始化结合了病理学描述,以生成更完整和语义上更准确的伪掩码。一种结构蒸馏机制从SegFormer传递空间知识,以在原型学习期间保留细粒度的形态模式和局部组织边界。我们的方法无需像素级注释即可生成高质量的伪掩码,提高定位完整性,并增强组织类型之间的语义一致性。在BCSS-WSSS数据集上的实验表明,我们的原型学习框架优于现有的WSSS方法,同时通过冻结的基础模型骨干网络和轻量级可训练适配器保持了计算效率。

🔬 方法详解

问题定义:组织病理学图像的弱监督语义分割(WSSS)任务旨在仅利用图像级别的标签实现像素级别的分割。现有方法通常依赖于分类骨干网络,但这些网络倾向于只关注图像中最具区分性的区域,而忽略了组织结构的完整空间范围,导致分割结果不完整。此外,如何有效地利用视觉-语言模型(如CONCH)提供的语义信息以及分割模型(如SegFormer)提供的空间信息也是一个挑战。

核心思路:ConStruct的核心思路是利用原型学习框架,将来自不同来源的信息进行整合,从而生成既具有语义区分性又具有空间连贯性的原型。具体来说,它结合了CONCH的形态感知表示、SegFormer的多尺度结构线索以及文本引导的语义对齐。通过原型学习,模型能够学习到不同组织类型的典型特征,并利用这些特征进行分割。

技术框架:ConStruct框架主要包含以下几个模块:1) 特征提取模块:使用CONCH和SegFormer分别提取图像的形态感知特征和多尺度结构特征。2) 文本引导的原型初始化模块:利用病理学描述生成初始原型,这些原型具有更完整的语义信息。3) 原型学习模块:通过迭代更新原型,使其既具有语义区分性又具有空间连贯性。4) 结构蒸馏模块:从SegFormer传递空间知识,以保留细粒度的形态模式和局部组织边界。

关键创新:ConStruct的关键创新在于:1) 提出了文本引导的原型初始化方法,利用病理学描述来生成更完整和语义上更准确的伪掩码。2) 引入了结构蒸馏机制,从SegFormer传递空间知识,以保留细粒度的形态模式和局部组织边界。3) 将来自不同来源的信息(形态感知表示、多尺度结构线索、文本引导的语义对齐)整合到一个统一的原型学习框架中。

关键设计:在文本引导的原型初始化中,使用了病理学描述作为先验知识,指导原型生成。在结构蒸馏中,使用了KL散度损失来衡量SegFormer和原型学习模块之间的空间知识差异,并以此来指导原型学习。此外,为了提高计算效率,使用了冻结的基础模型骨干网络和轻量级可训练适配器。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ConStruct在BCSS-WSSS数据集上取得了显著的性能提升,优于现有的WSSS方法。该方法能够生成高质量的伪掩码,提高定位完整性,并增强组织类型之间的语义一致性。此外,通过冻结的基础模型骨干网络和轻量级可训练适配器,ConStruct保持了较高的计算效率。

🎯 应用场景

该研究成果可应用于病理图像分析、辅助诊断、药物研发等领域。通过提高组织病理学图像分割的准确性和完整性,可以帮助病理学家更准确地识别病变区域,从而提高诊断效率和准确性。此外,该方法还可以用于自动化病理图像分析,减少人工干预,降低诊断成本。

📄 摘要(原文)

Weakly supervised semantic segmentation (WSSS) in histopathology relies heavily on classification backbones, yet these models often localize only the most discriminative regions and struggle to capture the full spatial extent of tissue structures. Vision-language models such as CONCH offer rich semantic alignment and morphology-aware representations, while modern segmentation backbones like SegFormer preserve fine-grained spatial cues. However, combining these complementary strengths remains challenging, especially under weak supervision and without dense annotations. We propose a prototype learning framework for WSSS in histopathological images that integrates morphology-aware representations from CONCH, multi-scale structural cues from SegFormer, and text-guided semantic alignment to produce prototypes that are simultaneously semantically discriminative and spatially coherent. To effectively leverage these heterogeneous sources, we introduce text-guided prototype initialization that incorporates pathology descriptions to generate more complete and semantically accurate pseudo-masks. A structural distillation mechanism transfers spatial knowledge from SegFormer to preserve fine-grained morphological patterns and local tissue boundaries during prototype learning. Our approach produces high-quality pseudo masks without pixel-level annotations, improves localization completeness, and enhances semantic consistency across tissue types. Experiments on BCSS-WSSS datasets demonstrate that our prototype learning framework outperforms existing WSSS methods while remaining computationally efficient through frozen foundation model backbones and lightweight trainable adapters.