SkinGPT-X: A Self-Evolving Collaborative Multi-Agent System for Transparent and Trustworthy Dermatological Diagnosis

📄 arXiv: 2603.26122v1 📥 PDF

作者: Zhangtianyi Chen, Yuhao Shen, Florensia Widjaja, Yan Xu, Liyuan Sun, Zijian Wang, Hongyi Chen, Wufei Dai, Juexiao Zhou

分类: cs.CV, cs.AI

发布日期: 2026-03-27


💡 一句话要点

SkinGPT-X:用于透明可信皮肤病诊断的自进化协同多智能体系统

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 皮肤病诊断 多智能体系统 自进化记忆 多模态学习 罕见疾病 大型语言模型 可解释性

📋 核心要点

  1. 现有单体LLM在细粒度、大规模多分类诊断任务和罕见皮肤病诊断方面存在困难,缺乏临床推理所需的可解释性和可追溯性。
  2. SkinGPT-X通过模拟皮肤科医生诊断流程,构建自进化皮肤病记忆机制,实现透明可信的诊断,尤其针对复杂和罕见病例。
  3. 实验表明,SkinGPT-X在多个数据集上超越现有LLM,在罕见皮肤病数据集上准确率提升9.8%,加权F1提升7.1%,Cohen's Kappa提升10%。

📝 摘要(中文)

本文提出SkinGPT-X,一个用于皮肤病诊断的多模态协同多智能体系统,集成了自进化的皮肤病记忆机制。该系统通过模拟皮肤科医生的诊断工作流程并实现持续的记忆进化,为复杂和罕见皮肤病病例的管理提供透明且可信的诊断。为了验证SkinGPT-X的鲁棒性,设计了一个三层比较实验。实验结果表明,SkinGPT-X在四个公共数据集上优于最先进的LLM,在DDI31上实现了+9.6%的准确率提升,在Dermnet上实现了+13%的加权F1增益。此外,构建了一个包含498个不同皮肤病类别的大规模多分类数据集,以评估其细粒度分类能力。最后,构建了罕见皮肤病数据集,这是第一个解决临床罕见皮肤病稀缺性的基准,包含564个临床样本,涉及八种罕见皮肤病。在该数据集上,SkinGPT-X实现了+9.8%的准确率提升,+7.1%的加权F1提升,+10%的Cohen's Kappa提升。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)在皮肤病诊断中面临挑战,尤其是在处理细粒度、大规模多分类诊断任务以及罕见皮肤病诊断时。这些模型由于训练数据稀疏,难以准确诊断罕见疾病,并且缺乏临床推理所需的可解释性和可追溯性。现有的多智能体系统主要集中在视觉问答和对话任务上,对静态知识库的过度依赖限制了其在复杂现实临床环境中的适应性。

核心思路:SkinGPT-X的核心思路是模拟皮肤科医生的诊断流程,构建一个协同多智能体系统,并引入自进化的皮肤病记忆机制。通过这种方式,系统能够不断学习和更新知识,提高诊断的准确性和可靠性,同时提供透明和可解释的诊断结果。这种设计旨在克服单体LLM的局限性,并增强系统在处理复杂和罕见病例时的能力。

技术框架:SkinGPT-X是一个多模态协同多智能体系统,包含多个智能体,每个智能体负责不同的诊断任务。系统集成了自进化的皮肤病记忆机制,允许智能体不断学习和更新知识。整体流程包括:1) 输入多模态数据(例如,图像和文本描述);2) 各个智能体协同工作,进行特征提取、疾病诊断和推理;3) 自进化记忆机制更新知识库;4) 输出诊断结果和解释。

关键创新:SkinGPT-X的关键创新在于其自进化的皮肤病记忆机制和协同多智能体架构。自进化记忆机制允许系统不断学习和更新知识,提高诊断的准确性和可靠性。协同多智能体架构模拟了皮肤科医生的诊断流程,使得系统能够更好地处理复杂和罕见病例。与现有方法相比,SkinGPT-X更具适应性、可解释性和可信度。

关键设计:具体的参数设置、损失函数和网络结构等技术细节在论文中可能没有详细描述(未知)。但可以推测,自进化记忆机制可能涉及某种形式的知识图谱或向量数据库,用于存储和检索皮肤病相关的信息。智能体之间的协同可能通过某种通信协议或注意力机制实现。损失函数可能包括分类损失、对比学习损失等,用于优化诊断的准确性和一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SkinGPT-X在多个数据集上取得了显著的性能提升。在DDI31数据集上,SkinGPT-X的准确率比最先进的模型提高了9.6%。在Dermnet数据集上,SkinGPT-X的加权F1值提高了13%。在罕见皮肤病数据集上,SkinGPT-X的准确率提高了9.8%,加权F1值提高了7.1%,Cohen's Kappa值提高了10%。这些结果表明,SkinGPT-X在皮肤病诊断方面具有显著的优势。

🎯 应用场景

SkinGPT-X具有广泛的应用前景,可用于辅助皮肤科医生进行诊断,尤其是在处理复杂和罕见病例时。该系统可以提高诊断的准确性和效率,减少误诊和漏诊的风险。此外,SkinGPT-X还可以用于远程医疗和患者教育,为患者提供便捷的皮肤病诊断服务。未来,该系统有望成为皮肤病诊疗的重要工具,改善患者的健康状况。

📄 摘要(原文)

While recent advancements in Large Language Models have significantly advanced dermatological diagnosis, monolithic LLMs frequently struggle with fine-grained, large-scale multi-class diagnostic tasks and rare skin disease diagnosis owing to training data sparsity, while also lacking the interpretability and traceability essential for clinical reasoning. Although multi-agent systems can offer more transparent and explainable diagnostics, existing frameworks are primarily concentrated on Visual Question Answering and conversational tasks, and their heavy reliance on static knowledge bases restricts adaptability in complex real-world clinical settings. Here, we present SkinGPT-X, a multimodal collaborative multi-agent system for dermatological diagnosis integrated with a self-evolving dermatological memory mechanism. By simulating the diagnostic workflow of dermatologists and enabling continuous memory evolution, SkinGPT-X delivers transparent and trustworthy diagnostics for the management of complex and rare dermatological cases. To validate the robustness of SkinGPT-X, we design a three-tier comparative experiment. First, we benchmark SkinGPT-X against four state-of-the-art LLMs across four public datasets, demonstrating its state-of-the-art performance with a +9.6% accuracy improvement on DDI31 and +13% weighted F1 gain on Dermnet over the state-of-the-art model. Second, we construct a large-scale multi-class dataset covering 498 distinct dermatological categories to evaluate its fine-grained classification capabilities. Finally, we curate the rare skin disease dataset, the first benchmark to address the scarcity of clinical rare skin diseases which contains 564 clinical samples with eight rare dermatological diseases. On this dataset, SkinGPT-X achieves a +9.8% accuracy improvement, a +7.1% weighted F1 improvement, a +10% Cohen's Kappa improvement.