Doctor Approved: Generating Medically Accurate Skin Disease Images through AI-Expert Feedback

📄 arXiv: 2506.12323v2 📥 PDF

作者: Janet Wang, Yunbei Zhang, Zhengming Ding, Jihun Hamm

分类: cs.CV

发布日期: 2025-06-14 (更新: 2025-10-21)

备注: NeurIPS 2025


💡 一句话要点

MAGIC:利用AI专家反馈生成医学准确的皮肤病图像,提升诊断模型性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 皮肤病图像生成 扩散模型 多模态大语言模型 AI专家反馈 数据增强

📋 核心要点

  1. 医学图像数据稀缺限制了诊断模型的泛化性,而扩散模型生成的图像常存在医学不准确问题。
  2. MAGIC框架利用多模态大语言模型作为AI专家,将专家标准转化为扩散模型图像合成的可操作反馈。
  3. 实验表明,MAGIC显著提升了合成图像的临床质量,并使皮肤病诊断准确率提升高达13.89%。

📝 摘要(中文)

医学数据匮乏严重限制了诊断机器学习模型的泛化能力,因为小型临床数据集无法代表疾病变异的完整范围。为了解决这个问题,扩散模型(DMs)被认为是合成图像生成和增强的有希望的途径。然而,它们经常产生医学上不准确的图像,从而降低模型性能。专家领域知识对于合成正确编码临床信息的图像至关重要,尤其是在数据稀缺且质量重于数量时。现有的结合人类反馈的方法,如强化学习(RL)和直接偏好优化(DPO),依赖于鲁棒的奖励函数或需要劳动密集型的专家评估。多模态大型语言模型(MLLMs)的最新进展揭示了它们强大的视觉推理能力,使其成为合适的评估者。在这项工作中,我们提出了一个名为MAGIC(通过AI专家协作进行医学准确的图像生成)的新框架,该框架合成了临床上准确的皮肤病图像,用于数据增强。我们的方法创造性地将专家定义的标准转化为扩散模型图像合成的可操作反馈,显著提高了临床准确性,同时减少了直接的人工工作量。实验表明,我们的方法极大地提高了合成皮肤病图像的临床质量,其输出与皮肤科医生的评估相符。此外,使用这些合成图像增强训练数据,在具有挑战性的20种皮肤病分类任务中,诊断准确率提高了+9.02%,在少样本设置中提高了+13.89%。

🔬 方法详解

问题定义:论文旨在解决医学图像数据匮乏的问题,特别是皮肤病图像。现有方法,如直接使用扩散模型生成图像,往往产生医学上不准确的图像,降低了诊断模型的性能。此外,利用人工反馈进行图像优化成本高昂且效率低下。

核心思路:论文的核心思路是利用多模态大型语言模型(MLLMs)的视觉推理能力,将其作为“AI专家”,自动评估生成图像的医学准确性,并将评估结果转化为对扩散模型的反馈信号,从而引导模型生成更符合医学标准的图像。这种方法旨在减少对人工专家的依赖,并提高图像生成的效率和准确性。

技术框架:MAGIC框架主要包含以下几个阶段:1) 扩散模型生成皮肤病图像;2) MLLM(如GPT-4V)作为AI专家,根据预定义的医学标准评估生成图像的临床准确性;3) 将MLLM的评估结果转化为可用于优化扩散模型的反馈信号;4) 利用反馈信号微调扩散模型,使其生成更符合医学标准的图像。这个过程可以迭代进行,逐步提高生成图像的质量。

关键创新:MAGIC的关键创新在于将MLLM创造性地用作“AI专家”,自动提供图像质量反馈。与传统的依赖人工反馈或强化学习的方法相比,MAGIC显著降低了人工成本,并提高了反馈效率。此外,该方法将专家定义的标准转化为可操作的反馈信号,使得扩散模型能够更好地理解和学习医学知识。

关键设计:论文中,MLLM的prompt设计至关重要,需要清晰地定义医学评估标准,并指导MLLM给出具体的反馈意见。例如,可以要求MLLM评估图像中病灶的颜色、形状、边界等特征是否符合特定疾病的临床表现。此外,如何将MLLM的文本反馈转化为可用于优化扩散模型的数值信号也是一个关键设计点。论文可能采用了某种损失函数或优化策略,使得扩散模型能够有效地利用这些反馈信号。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MAGIC框架能够显著提高合成皮肤病图像的临床质量,使其与皮肤科医生的评估结果更加一致。使用MAGIC生成的合成图像增强训练数据后,在20种皮肤病分类任务中,诊断准确率提高了+9.02%,在少样本学习场景下,准确率提升高达+13.89%。这些数据表明MAGIC在提升诊断模型性能方面具有显著优势。

🎯 应用场景

该研究成果可广泛应用于医学图像数据增强,尤其是在罕见病或数据匮乏的疾病领域。通过生成高质量的合成图像,可以有效提升诊断模型的泛化能力和准确性,辅助医生进行疾病诊断和治疗方案制定。此外,该方法还可以应用于医学教育和培训,为医学生提供更丰富的病例资源。

📄 摘要(原文)

Paucity of medical data severely limits the generalizability of diagnostic ML models, as the full spectrum of disease variability can not be represented by a small clinical dataset. To address this, diffusion models (DMs) have been considered as a promising avenue for synthetic image generation and augmentation. However, they frequently produce medically inaccurate images, deteriorating the model performance. Expert domain knowledge is critical for synthesizing images that correctly encode clinical information, especially when data is scarce and quality outweighs quantity. Existing approaches for incorporating human feedback, such as reinforcement learning (RL) and Direct Preference Optimization (DPO), rely on robust reward functions or demand labor-intensive expert evaluations. Recent progress in Multimodal Large Language Models (MLLMs) reveals their strong visual reasoning capabilities, making them adept candidates as evaluators. In this work, we propose a novel framework, coined MAGIC (Medically Accurate Generation of Images through AI-Expert Collaboration), that synthesizes clinically accurate skin disease images for data augmentation. Our method creatively translates expert-defined criteria into actionable feedback for image synthesis of DMs, significantly improving clinical accuracy while reducing the direct human workload. Experiments demonstrate that our method greatly improves the clinical quality of synthesized skin disease images, with outputs aligning with dermatologist assessments. Additionally, augmenting training data with these synthesized images improves diagnostic accuracy by +9.02% on a challenging 20-condition skin disease classification task, and by +13.89% in the few-shot setting.