DermAgent: A Self-Reflective Agentic System for Dermatological Image Analysis with Multi-Tool Reasoning and Traceable Decision-Making

📄 arXiv: 2605.14403v1 📥 PDF

作者: Yize Liu, Siyuan Yan, Ming Hu, Lie Ju, Xieji Li, Feilong Tang, Wei Feng, Zongyuan Ge

分类: cs.CV

发布日期: 2026-05-14

备注: MICCAI2026 early acceptance

🔗 代码/项目: GITHUB


💡 一句话要点

DermAgent:一种自反思Agent系统,用于可追溯决策的皮肤病学图像分析

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 皮肤病诊断 多模态学习 Agent系统 医学图像分析 自反思学习

📋 核心要点

  1. 现有MLLM在皮肤科图像分析中面临领域知识不足和幻觉问题,限制了其诊断准确性和可靠性。
  2. DermAgent通过集成多工具Agent、双模态检索和确定性评论模块,实现可追溯的诊断推理和自我纠正。
  3. 实验表明,DermAgent在皮肤病诊断准确率和临床描述方面显著优于现有MLLM和医学Agent基线。

📝 摘要(中文)

皮肤科诊断需要整合精细的视觉感知与专业的临床知识。多模态大型语言模型(MLLM)虽然促进了交互式医学图像分析,但其在皮肤科的应用受到领域特定知识不足和幻觉问题的阻碍。为了解决这些问题,我们提出了DermAgent,一个协作的多工具Agent,在Plan-Execute-Reflect框架内协调七个专门的视觉和语言模块。DermAgent通过三个核心组件提供逐步的、可追溯的诊断推理。首先,它采用互补的视觉感知工具进行全面的形态学描述、皮肤镜概念注释和疾病诊断。其次,为了克服领域先验知识的缺乏,一个双模态检索模块通过交叉引用413,210个已诊断的图像案例和3,199个临床指南片段,将每个预测锚定在外部证据中。为了进一步减轻幻觉,一个确定性的评论模块通过置信度、覆盖率和冲突门进行严格的事后审计,自动检测源间分歧以触发有针对性的自我纠正。在五个皮肤科基准上的大量实验表明,DermAgent在零样本细粒度疾病诊断、概念注释和临床描述任务中始终优于最先进的MLLM和医学Agent基线,在皮肤病诊断准确率方面超过GPT-4o 17.6%,在描述ROUGE-L方面超过3.15%。我们的代码可在https://github.com/YizeezLiu/DermAgent获得。

🔬 方法详解

问题定义:皮肤科图像分析需要结合精细的视觉信息和专业的临床知识,现有的多模态大语言模型(MLLMs)虽然具备一定的能力,但由于缺乏足够的领域知识和容易产生幻觉,导致诊断准确率和可靠性不足。因此,如何提高MLLMs在皮肤科图像分析中的性能,减少幻觉,并提供可追溯的诊断依据是一个关键问题。

核心思路:DermAgent的核心思路是构建一个自反思的Agent系统,通过集成多个专业工具、检索外部知识和进行事后审计来提高诊断的准确性和可靠性。该系统模拟了医生诊断的过程,即首先观察图像,然后查阅资料,最后进行诊断并进行自我检查。

技术框架:DermAgent的整体架构采用Plan-Execute-Reflect框架,包含以下主要模块:1) 多工具Agent:包含七个专门的视觉和语言模块,用于形态学描述、皮肤镜概念注释和疾病诊断。2) 双模态检索模块:通过检索413,210个已诊断的图像案例和3,199个临床指南片段,为每个预测提供外部证据支持。3) 确定性评论模块:通过置信度、覆盖率和冲突门进行事后审计,检测源间分歧并触发自我纠正。

关键创新:DermAgent的关键创新在于:1) 集成了多个专业工具,实现了更全面的视觉感知和知识整合。2) 引入了双模态检索模块,有效缓解了领域知识不足的问题。3) 设计了确定性评论模块,能够自动检测和纠正幻觉,提高了诊断的可靠性。与现有方法相比,DermAgent更加注重知识的整合和推理过程的可追溯性。

关键设计:在多工具Agent中,每个工具都针对特定的任务进行了优化,例如,使用专门的网络结构进行形态学描述和皮肤镜概念注释。双模态检索模块采用了跨模态的相似度计算方法,以找到最相关的图像案例和临床指南片段。确定性评论模块中的置信度、覆盖率和冲突门的设计旨在全面评估预测的质量,并触发有针对性的自我纠正。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

DermAgent在五个皮肤科基准测试中表现出色,显著优于现有方法。在皮肤病诊断准确率方面,DermAgent超过GPT-4o 17.6%,在临床描述ROUGE-L方面超过3.15%。这些结果表明,DermAgent在细粒度疾病诊断、概念注释和临床描述任务中具有显著优势。

🎯 应用场景

DermAgent具有广泛的应用前景,可用于辅助皮肤科医生进行疾病诊断、提供远程医疗服务、以及进行医学教育和培训。该系统能够提高诊断效率和准确性,尤其是在缺乏专业医生资源的地区,具有重要的实际价值。未来,DermAgent可以进一步扩展到其他医学图像分析领域,为医疗健康事业做出更大的贡献。

📄 摘要(原文)

Dermatological diagnosis requires integrating fine-grained visual perception with expert clinical knowledge. Although Multimodal Large Language Models (MLLMs) facilitate interactive medical image analysis, their application in dermatology is hindered by insufficient domain-specific grounding and hallucinations. To address these issues, we propose DermAgent, a collaborative multi-tool agent that orchestrates seven specialized vision and language modules within a Plan-Execute-Reflect framework. DermAgent delivers stepwise, traceable diagnostic reasoning through three core components. First, it employs complementary visual perception tools for comprehensive morphological description, dermoscopic concept annotation, and disease diagnosis. Second, to overcome the lack of domain prior, a dual-modality retrieval module anchors every prediction in external evidence by cross-referencing 413,210 diagnosed image cases and 3,199 clinical guideline chunks. To further mitigate hallucinations, a deterministic critic module conducts strict post-hoc auditing via confidence, coverage, and conflict gates, automatically detecting inter-source disagreements to trigger targeted self-correction. Extensive experiments on five dermatology benchmarks demonstrate that DermAgent consistently outperforms state-of-the-art MLLMs and medical agent baselines across zero-shot fine-grained disease diagnosis, concept annotation, and clinical captioning tasks, exceeding GPT-4o by 17.6% in skin disease diagnostic accuracy and 3.15% in captioning ROUGE-L. Our code is available at https://github.com/YizeezLiu/DermAgent.