PSScreen V2: Partially Supervised Multiple Retinal Disease Screening
作者: Boyi Zheng, Yalin Zheng, Hrvoje Bogunović, Qing Liu
分类: cs.CV
发布日期: 2025-10-26 (更新: 2025-10-28)
🔗 代码/项目: GITHUB
💡 一句话要点
PSScreen V2:提出一种半监督自训练框架,用于多视网膜疾病筛查。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视网膜疾病筛查 半监督学习 领域自适应 自训练 特征增强 低频分析 伪标签
📋 核心要点
- 现有视网膜疾病筛查方法依赖全标注或单领域数据,难以应对标签缺失和领域偏移问题。
- PSScreen V2采用三分支架构,利用教师网络生成伪标签,学生网络进行低频特征增强,提升模型鲁棒性。
- 实验表明,PSScreen V2在多个数据集上达到SOTA性能,并具有良好的领域泛化能力和骨干网络兼容性。
📝 摘要(中文)
本文提出了PSScreen V2,一个用于多视网膜疾病筛查的半监督自训练框架。与依赖于全标注或单领域数据集的先前方法不同,PSScreen V2旨在从具有不同分布的多个部分标注数据集中学习,从而解决标签缺失和领域偏移的挑战。为此,PSScreen V2采用了一个三分支架构,包含一个教师网络和两个学生网络。教师分支从弱增强图像生成伪标签以解决缺失标签问题,而两个学生分支引入了新颖的特征增强策略:低频Dropout(LF-Dropout),通过随机丢弃与领域相关的低频分量来增强领域鲁棒性;以及低频不确定性(LF-Uncert),通过对抗学习的低频统计高斯扰动来估计不确定的领域变异性。在多个同领域和跨领域的眼底数据集上的大量实验表明,PSScreen V2实现了最先进的性能和卓越的领域泛化能力。此外,与包括视觉基础模型DINOv2在内的各种骨干网络的兼容性测试,以及在胸部X光数据集上的评估,突出了所提出框架的通用性和适应性。代码可在https://github.com/boyiZheng99/PSScreen_V2 获取。
🔬 方法详解
问题定义:现有的视网膜疾病筛查方法通常依赖于完全标注的数据集,这在实际应用中很难获得。此外,不同医疗机构或设备采集的数据存在领域差异,导致模型泛化能力下降。因此,如何利用部分标注数据,并提升模型在不同领域数据集上的泛化能力,是本文要解决的核心问题。
核心思路:PSScreen V2的核心思路是利用半监督学习和领域自适应技术,从多个部分标注的数据集中学习。通过教师-学生网络结构,教师网络生成伪标签,学生网络学习鲁棒的特征表示,从而解决标签缺失和领域偏移的问题。
技术框架:PSScreen V2采用三分支架构:一个教师网络和两个学生网络。教师网络使用弱增强图像生成伪标签,用于指导学生网络的训练。两个学生网络分别采用不同的特征增强策略:LF-Dropout和LF-Uncert。LF-Dropout随机丢弃与领域相关的低频分量,增强领域鲁棒性;LF-Uncert通过对抗学习的低频统计高斯扰动来估计不确定的领域变异性。整个框架通过一致性损失和交叉熵损失进行联合训练。
关键创新:PSScreen V2的关键创新在于提出了两种新颖的特征增强策略:LF-Dropout和LF-Uncert。LF-Dropout通过随机丢弃低频分量,模拟不同领域之间的差异,从而增强模型的领域不变性。LF-Uncert通过对抗学习的方式,学习领域变异性的分布,从而提高模型对未知领域的适应能力。与传统的领域自适应方法相比,这两种方法更加轻量级,易于实现,并且不需要额外的领域标签。
关键设计:LF-Dropout的具体实现方式是,首先对特征图进行傅里叶变换,然后随机将低频分量的幅度设置为零。LF-Uncert通过一个对抗网络学习低频统计的扰动,该扰动被添加到学生网络的特征图中。损失函数包括交叉熵损失和一致性损失,其中交叉熵损失用于监督学习,一致性损失用于保证教师网络和学生网络输出的一致性。对抗网络的训练目标是最大化学生网络的预测不确定性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PSScreen V2在多个眼底数据集上取得了最先进的性能,显著优于现有的半监督学习和领域自适应方法。例如,在跨领域数据集上的实验中,PSScreen V2的平均AUC提升了5%以上。此外,该框架与DINOv2等视觉基础模型的兼容性测试也表明了其良好的通用性和可扩展性。
🎯 应用场景
PSScreen V2具有广泛的应用前景,可用于大规模视网膜疾病筛查,尤其是在医疗资源匮乏的地区。该方法能够利用有限的标注数据和不同来源的数据集,降低筛查成本,提高筛查效率。此外,该框架的通用性使其可以扩展到其他医学图像分析任务,例如胸部X光疾病诊断等。
📄 摘要(原文)
In this work, we propose PSScreen V2, a partially supervised self-training framework for multiple retinal disease screening. Unlike previous methods that rely on fully labelled or single-domain datasets, PSScreen V2 is designed to learn from multiple partially labelled datasets with different distributions, addressing both label absence and domain shift challenges. To this end, PSScreen V2 adopts a three-branch architecture with one teacher and two student networks. The teacher branch generates pseudo labels from weakly augmented images to address missing labels, while the two student branches introduce novel feature augmentation strategies: Low-Frequency Dropout (LF-Dropout), which enhances domain robustness by randomly discarding domain-related low-frequency components, and Low-Frequency Uncertainty (LF-Uncert), which estimates uncertain domain variability via adversarially learned Gaussian perturbations of low-frequency statistics. Extensive experiments on multiple in-domain and out-of-domain fundus datasets demonstrate that PSScreen V2 achieves state-of-the-art performance and superior domain generalization ability. Furthermore, compatibility tests with diverse backbones, including the vision foundation model DINOv2, as well as evaluations on chest X-ray datasets, highlight the universality and adaptability of the proposed framework. The codes are available at https://github.com/boyiZheng99/PSScreen_V2.