SkinCaRe: A Multimodal Dermatology Dataset Annotated with Medical Caption and Chain-of-Thought Reasoning

📄 arXiv: 2405.18004v2 📥 PDF

作者: Yuhao Shen, Liyuan Sun, Yan Xu, Wenbin Liu, Shuping Zhang, Shawn Afvari, Zhongyi Han, Jiaoyan Song, Yongzhi Ji, Tao Lu, Xiaonan He, Xin Gao, Juexiao Zhou

分类: cs.CV

发布日期: 2024-05-28 (更新: 2025-11-09)

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

SkinCaRe:一个包含医学描述和思维链推理的多模态皮肤病学数据集

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 皮肤病学 多模态数据集 医学图像分析 思维链推理 自然语言描述

📋 核心要点

  1. 现有皮肤病学数据集缺乏概念级元标签和自然语言医学描述,限制了基于LLM诊断方法的发展。
  2. SkinCaRe通过整合SkinCAP和SkinCoT,提供包含医学描述和思维链推理的皮肤病学数据集。
  3. SkinCaRe包含7041个病例,由专家标注,为训练可描述和解释皮肤图像的多模态模型提供资源。

📝 摘要(中文)

随着人工智能,特别是深度学习和视觉大语言模型(VLLM)在皮肤病诊断中的广泛应用,可解释性变得至关重要。然而,现有的皮肤病学数据集在概念级元标签的包含方面受到限制,并且没有提供丰富的自然语言医学描述。这种缺陷阻碍了基于LLM的皮肤病诊断方法的发展。为了解决这一差距,并提供一个带有全面自然语言描述的精心注释的皮肤病学数据集,我们推出了 extbf{SkinCaRe},这是一个综合性的多模态资源,统一了 extit{SkinCAP}和 extit{SkinCoT}。 extbf{SkinCAP}包含来自Fitzpatrick 17k皮肤病数据集和Diverse Dermatology Images数据集的4,000张图像,由委员会认证的皮肤科医生进行注释,以提供广泛的医学描述和标题。此外,我们还推出了 extbf{SkinCoT},这是一个精选的数据集,将3,041张皮肤病学图像与临床医生验证的、分层的思维链(CoT)诊断配对。每个诊断叙述都根据六个质量标准进行严格评估,并迭代改进,直到达到预定义的临床准确性和解释深度标准。SkinCAP(captioning)和SkinCoT(reasoning)统称为SkinCaRe,包含7,041个由专家策划的皮肤病学案例,并为训练多模态模型提供了一个统一且值得信赖的资源,这些模型既可以描述又可以解释皮肤病学图像。SkinCaRe可在https://huggingface.co/datasets/yuhos16/SkinCaRe公开获取。

🔬 方法详解

问题定义:现有皮肤病学数据集在支持可解释AI诊断方面存在不足。具体来说,缺乏概念级别的元标签和丰富的自然语言医学描述,使得现有模型难以进行有效的推理和诊断,尤其是在利用大型语言模型(LLM)进行诊断时,数据质量和信息量成为瓶颈。

核心思路:SkinCaRe的核心思路是构建一个高质量、多模态的皮肤病学数据集,该数据集不仅包含图像,还包含由专家提供的详细医学描述和思维链推理过程。通过提供丰富的上下文信息,旨在提升AI模型在皮肤病诊断中的准确性和可解释性。

技术框架:SkinCaRe数据集由两个主要部分组成:SkinCAP和SkinCoT。SkinCAP包含4000张皮肤图像,并附有专家编写的医学描述和标题。SkinCoT包含3041张图像,并配有临床医生验证的分层思维链(CoT)诊断。整个数据集的构建流程包括数据收集、专家标注、质量评估和迭代改进等环节。

关键创新:SkinCaRe的关键创新在于其综合性和高质量的标注。它不仅提供了图像和诊断结果,还提供了详细的医学描述和思维链推理过程,这使得模型能够学习到更深层次的医学知识和推理能力。此外,数据集的标注过程经过严格的质量控制,确保了数据的准确性和可靠性。

关键设计:SkinCoT数据集中的思维链(CoT)诊断是分层的,这意味着诊断过程被分解为多个步骤,每个步骤都包含详细的解释和推理。每个诊断叙述都根据六个质量标准进行评估,包括临床准确性、解释深度、完整性、一致性、相关性和可读性。标注人员会根据评估结果进行迭代改进,直到达到预定义的标准。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SkinCaRe数据集包含7041个由专家策划的皮肤病学案例,每个案例都包含图像、医学描述和思维链推理过程。SkinCoT数据集中的诊断叙述经过严格的质量评估和迭代改进,确保了临床准确性和解释深度。该数据集为训练多模态模型提供了一个统一且值得信赖的资源。

🎯 应用场景

SkinCaRe数据集可用于训练和评估各种AI模型,包括深度学习模型和视觉大语言模型,在皮肤病诊断、医学图像分析、智能辅助诊断等领域具有广泛的应用前景。该数据集能够促进可解释AI在医疗领域的应用,提高诊断的准确性和效率,并为医生提供有价值的参考信息。

📄 摘要(原文)

With the widespread application of artificial intelligence (AI), particularly deep learning (DL) and vision large language models (VLLMs), in skin disease diagnosis, the need for interpretability becomes crucial. However, existing dermatology datasets are limited in their inclusion of concept-level meta-labels, and none offer rich medical descriptions in natural language. This deficiency impedes the advancement of LLM-based methods in dermatologic diagnosis. To address this gap and provide a meticulously annotated dermatology dataset with comprehensive natural language descriptions, we introduce \textbf{SkinCaRe}, a comprehensive multimodal resource that unifies \textit{SkinCAP} and \textit{SkinCoT}. \textbf{SkinCAP} comprises 4,000 images sourced from the Fitzpatrick 17k skin disease dataset and the Diverse Dermatology Images dataset, annotated by board-certified dermatologists to provide extensive medical descriptions and captions. In addition, we introduce \textbf{SkinCoT}, a curated dataset pairing 3,041 dermatologic images with clinician-verified, hierarchical chain-of-thought (CoT) diagnoses. Each diagnostic narrative is rigorously evaluated against six quality criteria and iteratively refined until it meets a predefined standard of clinical accuracy and explanatory depth. Together, SkinCAP (captioning) and SkinCoT (reasoning), collectively referred to as SkinCaRe, encompass 7,041 expertly curated dermatologic cases and provide a unified and trustworthy resource for training multimodal models that both describe and explain dermatologic images. SkinCaRe is publicly available at https://huggingface.co/datasets/yuhos16/SkinCaRe.