DermoGPT: Open Weights and Open Data for Morphology-Grounded Dermatological Reasoning MLLMs

作者: Jinghan Ru, Siyuan Yan, Yuguo Yin, Yuexian Zou, Zongyuan Ge

分类: cs.CL

发布日期: 2026-01-05

🔗 代码/项目: GITHUB

💡 一句话要点

DermoGPT：提出基于形态学的皮肤科推理多模态大语言模型，并开源数据与权重

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 皮肤科 多模态大语言模型 医学影像 诊断推理 强化学习 形态学 开源数据 DermoGPT

📋 核心要点

现有皮肤科多模态大语言模型面临数据匮乏、任务覆盖不足以及缺乏临床诊断流程监督等挑战。
DermoGPT通过构建大规模形态学锚定的指令语料库DermoInstruct，并采用MAVIC强化学习目标，提升模型推理一致性。
实验结果表明，DermoGPT在形态学、诊断、推理和公平性等多个维度上显著优于现有模型，缩小了人机差距。

📝 摘要（中文）

多模态大语言模型(MLLMs)在医学应用中展现出潜力，但由于训练数据有限、任务覆盖范围窄以及缺乏模拟专家诊断流程的临床监督，皮肤科的进展相对滞后。本文提出了一个综合框架来解决这些差距。首先，引入DermoInstruct，这是一个大规模的形态学锚定的指令语料库，包含211,243张图像和772,675条轨迹，涵盖了从形态学观察和临床推理到最终诊断的完整诊断流程，包含五种任务形式。其次，建立了DermoBench，这是一个严格的基准，评估了四个临床轴上的11个任务：形态学、诊断、推理和公平性，包括一个具有挑战性的3,600个专家验证的开放式实例子集和人类性能基线。第三，开发了DermoGPT，一个皮肤科推理MLLM，通过监督微调以及形态学锚定的视觉推理一致性(MAVIC)强化学习目标进行训练，该目标强制视觉观察和诊断结论之间的一致性。在推理时，部署置信度一致性测试时自适应(CCT)以实现稳健的预测。实验表明，DermoGPT在所有轴上显著优于16个代表性基线，实现了最先进的性能，同时大大缩小了人机差距。DermoInstruct、DermoBench和DermoGPT将在接受后公开。

🔬 方法详解

问题定义：现有皮肤科多模态大语言模型在诊断准确性和临床推理能力上存在不足。主要痛点在于缺乏足够规模且具有临床指导意义的训练数据，以及缺乏对模型推理过程一致性的有效监督，导致模型难以模拟专家医生的诊断流程。

核心思路：本文的核心思路是构建一个大规模、高质量的皮肤科指令数据集，并设计一种强化学习方法，以提高模型在视觉观察和诊断结论之间的一致性。通过这种方式，模型可以更好地学习皮肤科医生的诊断逻辑，从而提高诊断准确性和可靠性。

技术框架：DermoGPT的整体框架包括三个主要部分：1) DermoInstruct数据集的构建，包含图像和诊断轨迹；2) DermoGPT模型的训练，包括监督微调和MAVIC强化学习；3) CCT测试时自适应，用于提高推理的鲁棒性。首先使用DermoInstruct进行监督微调，然后使用MAVIC强化学习目标进行优化，最后使用CCT进行测试时自适应。

关键创新：最重要的技术创新点在于MAVIC（Morphologically-Anchored Visual-Inference-Consistent）强化学习目标。该目标通过奖励模型在视觉观察和诊断结论之间保持一致性，从而有效地提高了模型的推理能力。与传统的监督学习方法相比，MAVIC能够更好地模拟专家医生的诊断流程，并提高模型的泛化能力。

关键设计：MAVIC强化学习目标的设计是关键。具体来说，它通过计算模型在不同诊断步骤中的置信度，并奖励模型在视觉观察和诊断结论之间保持一致性。CCT测试时自适应通过调整模型的预测置信度，使其与测试数据的特征更加匹配，从而提高模型的鲁棒性。损失函数的设计也考虑了形态学特征的重要性，以提高模型对皮肤病变形态的识别能力。

🖼️ 关键图片

📊 实验亮点

DermoGPT在DermoBench基准测试中显著优于16个代表性基线模型，在形态学、诊断、推理和公平性等多个维度上均取得了最先进的性能。尤其是在专家验证的开放式实例子集上，DermoGPT表现出色，大大缩小了人机差距。这些结果表明DermoGPT在皮肤科诊断方面具有很强的潜力。

🎯 应用场景

DermoGPT具有广泛的应用前景，可用于辅助皮肤科医生进行诊断，提高诊断效率和准确性。此外，该模型还可以用于远程医疗、患者教育和医学研究等领域。通过开源数据和模型权重，DermoGPT有望促进皮肤科人工智能的发展，并为更多患者提供更好的医疗服务。

📄 摘要（原文）

Multimodal Large Language Models (MLLMs) show promise for medical applications, yet progress in dermatology lags due to limited training data, narrow task coverage, and lack of clinically-grounded supervision that mirrors expert diagnostic workflows. We present a comprehensive framework to address these gaps. First, we introduce DermoInstruct, a large-scale morphology-anchored instruction corpus comprising 211,243 images and 772,675 trajectories across five task formats, capturing the complete diagnostic pipeline from morphological observation and clinical reasoning to final diagnosis. Second, we establish DermoBench, a rigorous benchmark evaluating 11 tasks across four clinical axes: Morphology, Diagnosis, Reasoning, and Fairness, including a challenging subset of 3,600 expert-verified open-ended instances and human performance baselines. Third, we develop DermoGPT, a dermatology reasoning MLLM trained via supervised fine-tuning followed by our Morphologically-Anchored Visual-Inference-Consistent (MAVIC) reinforcement learning objective, which enforces consistency between visual observations and diagnostic conclusions. At inference, we deploy Confidence-Consistency Test-time adaptation (CCT) for robust predictions. Experiments show DermoGPT significantly outperforms 16 representative baselines across all axes, achieving state-of-the-art performance while substantially narrowing the human-AI gap. DermoInstruct, DermoBench and DermoGPT will be made publicly available at https://github.com/mendicant04/DermoGPT upon acceptance.

DermoGPT: Open Weights and Open Data for Morphology-Grounded Dermatological Reasoning MLLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册