MM-Skin: Enhancing Dermatology Vision-Language Model with an Image-Text Dataset Derived from Textbooks

📄 arXiv: 2505.06152v1 📥 PDF

作者: Wenqi Zeng, Yuqi Sun, Chenxi Ma, Weimin Tan, Bo Yan

分类: cs.CV, cs.AI

发布日期: 2025-05-09

🔗 代码/项目: GITHUB


💡 一句话要点

提出MM-Skin数据集和SkinVL模型,提升皮肤科视觉-语言模型在皮肤疾病诊断分析中的性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 皮肤科 视觉-语言模型 多模态数据集 医学图像 视觉问答 深度学习 SkinVL

📋 核心要点

  1. 现有皮肤科多模态数据集缺乏专业文本描述,限制了皮肤科视觉-语言模型在疾病诊断分析中的性能。
  2. 构建包含临床、皮肤镜和病理三种模态图像以及高质量文本描述的大规模MM-Skin数据集,并生成大量VQA样本。
  3. 开发了皮肤科专用VLM模型SkinVL,并在多个数据集上验证了其在皮肤疾病诊断方面的优越性能。

📝 摘要(中文)

医学视觉-语言模型(VLM)在各个医学领域展现出作为临床助手的潜力。然而,专门用于提供专业和详细诊断分析的皮肤科VLM仍然不发达,这主要是由于当前皮肤科多模态数据集中缺乏专业文本描述。为了解决这个问题,我们提出了MM-Skin,这是第一个大规模多模态皮肤科数据集,包含临床、皮肤镜和病理三种成像方式,以及从专业教科书中收集的近1万个高质量图像-文本对。此外,我们生成了超过2.7万个多样化的、遵循指令的视觉问答(VQA)样本(是当前最大皮肤科VQA数据集的9倍)。利用公共数据集和MM-Skin,我们开发了SkinVL,这是一个专门用于精确和细致的皮肤疾病解释的皮肤科VLM。在8个数据集上对SkinVL进行VQA、监督微调(SFT)和零样本分类任务的全面基准评估表明,与通用和医学VLM模型相比,它在皮肤疾病方面的表现非常出色。MM-Skin和SkinVL的引入为推进临床皮肤科VLM助手的发展做出了有意义的贡献。MM-Skin可在https://github.com/ZwQ803/MM-Skin获取。

🔬 方法详解

问题定义:现有皮肤科视觉-语言模型(VLM)在皮肤疾病诊断分析方面表现不足,主要原因是缺乏高质量、专业化的多模态数据集。现有数据集的文本描述不够详细和专业,无法有效训练VLM模型,使其难以进行精确和细致的皮肤疾病解释。

核心思路:论文的核心思路是构建一个高质量、大规模的皮肤科多模态数据集MM-Skin,该数据集包含多种成像模态(临床、皮肤镜、病理)和从专业教科书中提取的文本描述。通过使用专业教科书作为文本来源,确保了文本描述的准确性和专业性。同时,生成大量的视觉问答(VQA)样本,以进一步提升模型的理解和推理能力。

技术框架:整体框架包括数据收集与构建、模型训练和评估三个主要阶段。首先,从专业教科书中收集图像和文本数据,构建MM-Skin数据集,并生成VQA样本。然后,利用公共数据集和MM-Skin数据集,训练皮肤科专用VLM模型SkinVL。最后,在多个数据集上对SkinVL进行VQA、监督微调(SFT)和零样本分类任务的评估,验证其性能。

关键创新:论文的关键创新在于构建了第一个大规模、高质量的皮肤科多模态数据集MM-Skin,该数据集包含多种成像模态和专业文本描述。与现有数据集相比,MM-Skin的文本描述更加专业和详细,能够更好地支持皮肤科VLM模型的训练。此外,生成了大量的VQA样本,进一步提升了模型的理解和推理能力。

关键设计:论文的关键设计包括:1) 从专业教科书中提取文本描述,确保文本的专业性和准确性;2) 包含临床、皮肤镜和病理三种成像模态,覆盖了皮肤疾病诊断的多个方面;3) 生成大量的VQA样本,以提升模型的理解和推理能力;4) 开发了皮肤科专用VLM模型SkinVL,并针对皮肤疾病诊断任务进行了优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SkinVL模型在多个皮肤科数据集上取得了显著的性能提升。在VQA任务中,SkinVL的表现优于通用和医学VLM模型。在监督微调(SFT)和零样本分类任务中,SkinVL也展现出卓越的性能,证明了MM-Skin数据集和SkinVL模型的有效性。具体性能数据在论文中详细展示。

🎯 应用场景

该研究成果可应用于开发临床皮肤科VLM助手,辅助医生进行皮肤疾病的诊断和分析。SkinVL模型可以提供精确和细致的皮肤疾病解释,帮助医生做出更准确的诊断决策。此外,MM-Skin数据集可以作为皮肤科VLM研究的基础,促进相关技术的发展。未来,该技术有望应用于远程医疗、智能诊断等领域,提高医疗效率和质量。

📄 摘要(原文)

Medical vision-language models (VLMs) have shown promise as clinical assistants across various medical fields. However, specialized dermatology VLM capable of delivering professional and detailed diagnostic analysis remains underdeveloped, primarily due to less specialized text descriptions in current dermatology multimodal datasets. To address this issue, we propose MM-Skin, the first large-scale multimodal dermatology dataset that encompasses 3 imaging modalities, including clinical, dermoscopic, and pathological and nearly 10k high-quality image-text pairs collected from professional textbooks. In addition, we generate over 27k diverse, instruction-following vision question answering (VQA) samples (9 times the size of current largest dermatology VQA dataset). Leveraging public datasets and MM-Skin, we developed SkinVL, a dermatology-specific VLM designed for precise and nuanced skin disease interpretation. Comprehensive benchmark evaluations of SkinVL on VQA, supervised fine-tuning (SFT) and zero-shot classification tasks across 8 datasets, reveal its exceptional performance for skin diseases in comparison to both general and medical VLM models. The introduction of MM-Skin and SkinVL offers a meaningful contribution to advancing the development of clinical dermatology VLM assistants. MM-Skin is available at https://github.com/ZwQ803/MM-Skin