Weakly Supervised Tuberculosis Localization in Chest X-rays through Knowledge Distillation
作者: Marshal Ashif Shawkat, Moidul Hasan, Taufiq Hasan
分类: cs.CV
发布日期: 2025-12-11
备注: 18 pages, 9 figures, 4 tables
💡 一句话要点
利用知识蒸馏的胸部X光片肺结核弱监督定位方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知 (Perception & SLAM)
关键词: 肺结核检测 胸部X光片 知识蒸馏 弱监督学习 ResNet50
📋 核心要点
- 现有肺结核检测模型依赖于虚假相关性,泛化能力不足,且高质量标注数据集的构建成本高昂。
- 论文提出一种基于知识蒸馏的弱监督方法,利用师生框架训练CNN模型,无需边界框标注即可定位肺结核病灶。
- 实验结果表明,学生模型在TBX11k数据集上取得了0.2428 mIOU,且性能优于教师模型,提升了鲁棒性。
📝 摘要(中文)
肺结核(TB)仍然是全球,尤其是在资源有限国家中的主要死亡原因之一。胸部X光片(CXR)是一种易于获取且经济高效的诊断工具,但需要专家解读,而这往往难以获得。尽管机器学习模型在肺结核分类方面表现出高性能,但它们通常依赖于虚假相关性,并且泛化能力较差。此外,构建具有高质量医学图像标注的大型数据集需要大量的资源和领域专家的投入,并且通常涉及多个标注者达成一致,这导致巨大的财务和后勤费用。本研究重新利用知识蒸馏技术来训练CNN模型,减少虚假相关性,并在不需要边界框标注的情况下定位与肺结核相关的异常。通过利用具有ResNet50架构的师生框架,该方法在TBX11k数据集上训练后,实现了令人印象深刻的0.2428 mIOU分数。实验结果进一步表明,学生模型始终优于教师模型,突出了改进的鲁棒性和在不同环境中更广泛临床部署的潜力。
🔬 方法详解
问题定义:论文旨在解决肺结核病灶定位问题,现有方法依赖于大量精确标注的边界框数据,标注成本高昂且易引入偏差。此外,现有模型容易受到数据集中虚假相关性的影响,导致泛化能力不足,难以在实际临床环境中应用。
核心思路:论文的核心思路是利用知识蒸馏技术,通过一个预训练的教师模型指导学生模型的学习,从而在没有精确边界框标注的情况下,使学生模型能够学习到更鲁棒的特征表示,并定位肺结核病灶。知识蒸馏可以帮助学生模型避免学习到教师模型中的虚假相关性。
技术框架:整体框架是一个师生学习框架。教师模型是一个预训练的ResNet50网络,在包含边界框标注的数据集上进行训练。学生模型也是一个ResNet50网络,但没有直接使用边界框标注进行训练。学生模型通过最小化其预测结果与教师模型预测结果之间的差异来进行训练。具体来说,使用KL散度作为损失函数,鼓励学生模型的输出分布接近教师模型的输出分布。
关键创新:该方法的主要创新在于将知识蒸馏技术应用于肺结核病灶的弱监督定位。与传统的弱监督方法相比,该方法不需要复杂的后处理步骤,可以直接生成病灶的定位图。此外,通过知识蒸馏,学生模型可以学习到更鲁棒的特征表示,从而提高模型的泛化能力。
关键设计:论文使用了ResNet50作为教师和学生模型的骨干网络。损失函数使用了KL散度,用于衡量学生模型和教师模型输出分布之间的差异。训练过程中,使用了TBX11k数据集,该数据集包含大量的胸部X光片,但只有图像级别的标签,没有边界框标注。为了进一步提高模型的性能,论文还使用了数据增强技术,例如随机旋转、缩放和平移。
📊 实验亮点
实验结果表明,基于知识蒸馏的学生模型在TBX11k数据集上取得了0.2428的mIOU分数,显著优于直接训练的教师模型。这表明知识蒸馏可以有效地提高模型的鲁棒性和泛化能力,使其在没有精确标注的情况下也能实现准确的病灶定位。
🎯 应用场景
该研究成果可应用于肺结核的辅助诊断,尤其是在资源匮乏地区,可以降低对专家标注的依赖,提高诊断效率和准确性。此外,该方法也可以推广到其他医学图像分析任务中,例如肿瘤检测和病灶分割,具有广阔的应用前景。
📄 摘要(原文)
Tuberculosis (TB) remains one of the leading causes of mortality worldwide, particularly in resource-limited countries. Chest X-ray (CXR) imaging serves as an accessible and cost-effective diagnostic tool but requires expert interpretation, which is often unavailable. Although machine learning models have shown high performance in TB classification, they often depend on spurious correlations and fail to generalize. Besides, building large datasets featuring high-quality annotations for medical images demands substantial resources and input from domain specialists, and typically involves several annotators reaching agreement, which results in enormous financial and logistical expenses. This study repurposes knowledge distillation technique to train CNN models reducing spurious correlations and localize TB-related abnormalities without requiring bounding-box annotations. By leveraging a teacher-student framework with ResNet50 architecture, the proposed method trained on TBX11k dataset achieve impressive 0.2428 mIOU score. Experimental results further reveal that the student model consistently outperforms the teacher, underscoring improved robustness and potential for broader clinical deployment in diverse settings.