A Vision-Language Foundation Model for Zero-shot Clinical Collaboration and Automated Concept Discovery in Dermatology
作者: Siyuan Yan, Xieji Li, Dan Mo, Philipp Tschandl, Yiwen Jiang, Zhonghua Wang, Ming Hu, Lie Ju, Cristina Vico-Alonso, Yizhen Zheng, Jiahe Liu, Juexiao Zhou, Camilla Chello, Jen G. Cheung, Julien Anriot, Luc Thomas, Clare Primiero, Gin Tan, Aik Beng Ng, Simon See, Xiaoying Tang, Albert Ip, Xiaoyang Liao, Adrian Bowling, Martin Haskett, Shuang Zhao, Monika Janda, H. Peter Soyer, Victoria Mar, Harald Kittler, Zongyuan Ge
分类: cs.CV, cs.AI
发布日期: 2026-02-11
备注: reports
💡 一句话要点
DermFM-Zero:用于皮肤科零样本临床协作的视觉-语言基础模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 皮肤科 视觉-语言模型 零样本学习 多模态学习 临床决策支持 皮肤癌诊断 可解释性AI
📋 核心要点
- 现有医学基础模型依赖于任务特定的微调,限制了其广泛部署。
- DermFM-Zero通过掩码潜在建模和对比学习,在多模态数据上训练,实现零样本能力。
- 实验表明,DermFM-Zero在诊断、检索和临床协作中均表现出色,提升诊断准确率。
📝 摘要(中文)
本文介绍DermFM-Zero,一种皮肤科视觉-语言基础模型,通过掩码潜在建模和对比学习在超过400万个多模态数据点上进行训练。我们在20个基准测试中评估了DermFM-Zero,涵盖零样本诊断和多模态检索,无需任务特定调整即可实现最先进的性能。我们还在涉及1100多名临床医生的三项跨国读者研究中评估了其零样本能力。在初级保健环境中,AI辅助使全科医生的鉴别诊断准确率几乎翻了一番,涵盖98种皮肤病。在专科环境中,该模型在多模态皮肤癌评估中显著优于认证皮肤科医生。在协作工作流程中,AI辅助使非专业人员能够超越未受辅助的专家,同时提高管理的适当性。最后,我们表明DermFM-Zero的潜在表示是可解释的:稀疏自编码器以无监督的方式解耦临床上有意义的概念,其性能优于预定义的词汇表方法,并能够有针对性地抑制伪影引起的偏差,从而在无需重新训练的情况下提高鲁棒性。这些发现表明,基础模型可以提供有效、安全和透明的零样本临床决策支持。
🔬 方法详解
问题定义:现有医学基础模型通常需要在特定任务上进行微调才能获得良好的性能,这限制了它们在实际临床环境中的广泛应用。此外,现有方法在处理皮肤科领域的多模态数据(例如图像和文本描述)时,缺乏有效的融合和理解能力,难以提供准确的诊断和决策支持。
核心思路:DermFM-Zero的核心思路是构建一个能够进行零样本学习的皮肤科视觉-语言基础模型。通过在大规模多模态数据上进行预训练,模型能够学习到通用的视觉和语言表示,从而在无需针对特定任务进行微调的情况下,即可应用于各种皮肤科相关的任务。这种设计旨在提高模型的泛化能力和实用性。
技术框架:DermFM-Zero的整体框架包括以下几个主要模块:1) 多模态数据编码器:用于将图像和文本数据编码为统一的潜在表示。2) 掩码潜在建模:通过随机掩盖部分输入数据,迫使模型学习上下文信息,提高模型的鲁棒性。3) 对比学习:通过对比正负样本,使模型学习到更具区分性的特征表示。4) 稀疏自编码器:用于解耦潜在表示中的临床概念,提高模型的可解释性。
关键创新:DermFM-Zero的关键创新在于其零样本学习能力和可解释性。传统的医学基础模型通常需要针对特定任务进行微调,而DermFM-Zero通过在大规模多模态数据上进行预训练,可以直接应用于各种皮肤科相关的任务,无需额外的训练。此外,通过稀疏自编码器,模型能够解耦潜在表示中的临床概念,提高模型的可解释性,从而增强医生对模型决策的信任。
关键设计:DermFM-Zero的关键设计包括:1) 使用Transformer架构作为多模态数据编码器,以捕捉图像和文本之间的长程依赖关系。2) 采用掩码潜在建模和对比学习相结合的训练策略,以提高模型的鲁棒性和泛化能力。3) 使用稀疏自编码器来解耦潜在表示中的临床概念,并使用L1正则化来鼓励稀疏性。具体的损失函数包括掩码重建损失和对比损失。
📊 实验亮点
DermFM-Zero在多项实验中表现出色。在初级保健环境中,AI辅助使全科医生的鉴别诊断准确率几乎翻了一番。在专科环境中,该模型在多模态皮肤癌评估中显著优于认证皮肤科医生。在协作工作流程中,AI辅助使非专业人员能够超越未受辅助的专家。此外,稀疏自编码器能够有效解耦临床概念,提升模型可解释性。
🎯 应用场景
DermFM-Zero具有广泛的应用前景,可用于辅助皮肤科医生的诊断和治疗决策,尤其是在资源有限的初级保健环境中。该模型还可以用于皮肤癌的早期筛查和风险评估,提高诊断准确率和患者生存率。此外,DermFM-Zero还可以促进远程医疗和在线咨询,使患者能够获得更便捷的医疗服务。未来,该模型有望成为皮肤科临床实践中不可或缺的工具。
📄 摘要(原文)
Medical foundation models have shown promise in controlled benchmarks, yet widespread deployment remains hindered by reliance on task-specific fine-tuning. Here, we introduce DermFM-Zero, a dermatology vision-language foundation model trained via masked latent modelling and contrastive learning on over 4 million multimodal data points. We evaluated DermFM-Zero across 20 benchmarks spanning zero-shot diagnosis and multimodal retrieval, achieving state-of-the-art performance without task-specific adaptation. We further evaluated its zero-shot capabilities in three multinational reader studies involving over 1,100 clinicians. In primary care settings, AI assistance enabled general practitioners to nearly double their differential diagnostic accuracy across 98 skin conditions. In specialist settings, the model significantly outperformed board-certified dermatologists in multimodal skin cancer assessment. In collaborative workflows, AI assistance enabled non-experts to surpass unassisted experts while improving management appropriateness. Finally, we show that DermFM-Zero's latent representations are interpretable: sparse autoencoders unsupervisedly disentangle clinically meaningful concepts that outperform predefined-vocabulary approaches and enable targeted suppression of artifact-induced biases, enhancing robustness without retraining. These findings demonstrate that a foundation model can provide effective, safe, and transparent zero-shot clinical decision support.