Retrieval-Augmented VLMs for Multimodal Melanoma Diagnosis

作者: Jihyun Moon, Charmgil Hong

分类: cs.CV, cs.AI, cs.LG

发布日期: 2025-09-10

备注: Medical Image Computing and Computer-Assisted Intervention (MICCAI) ISIC Skin Image Analysis Workshop (MICCAI ISIC) 2025; 10 pages

💡 一句话要点

提出检索增强的视觉-语言模型，用于提升多模态黑色素瘤诊断的准确性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 黑色素瘤诊断 视觉-语言模型 检索增强学习 多模态学习 临床决策支持

📋 核心要点

现有基于CNN的黑色素瘤诊断方法忽略临床元数据，且需要大量预处理，限制了诊断的准确性和效率。
论文提出一种检索增强的VLM框架，通过检索语义相似的病例信息，增强VLM对临床特异性的理解。
实验结果表明，该方法无需微调即可显著提高黑色素瘤分类的准确性和纠错能力，优于传统方法。

📝 摘要（中文）

准确且早期的恶性黑色素瘤诊断对于改善患者预后至关重要。卷积神经网络(CNN)在皮肤镜图像分析中展现了潜力，但通常忽略临床元数据，并且需要大量的预处理。视觉-语言模型(VLM)提供了一种多模态的替代方案，但在通用领域数据上训练时，难以捕捉临床特异性。为了解决这个问题，我们提出了一种检索增强的VLM框架，该框架将语义相似的患者病例纳入诊断提示中。我们的方法无需微调即可实现知情的预测，并且显著提高了分类准确性和纠错能力，优于传统的基线方法。这些结果表明，检索增强提示为临床决策支持提供了一种稳健的策略。

🔬 方法详解

问题定义：论文旨在解决黑色素瘤诊断中，现有方法（如CNN）对临床元数据利用不足，以及通用VLM模型缺乏临床特异性的问题。现有方法的痛点在于需要大量预处理，并且难以有效融合图像和临床信息，导致诊断准确率受限。

核心思路：论文的核心思路是利用检索增强学习，将与待诊断病例语义相似的历史病例信息融入到VLM的诊断提示中。通过引入外部知识，增强VLM对临床场景的理解，从而提高诊断的准确性和可靠性。这种方法避免了对VLM进行微调，降低了计算成本。

技术框架：整体框架包含以下几个主要阶段：1)病例检索：使用语义相似度度量（具体方法未知）从历史病例库中检索与当前病例最相似的病例；2)提示构建：将检索到的病例信息与当前病例的图像和临床元数据组合成一个提示；3)VLM诊断：将构建的提示输入到VLM模型中，进行黑色素瘤诊断；4)结果评估：评估VLM的诊断结果，并与基线方法进行比较。

关键创新：最重要的技术创新点在于将检索增强学习应用于多模态黑色素瘤诊断。与直接使用VLM进行诊断相比，该方法能够利用外部知识，提高VLM对临床特异性的理解。与微调VLM相比，该方法无需额外的训练，降低了计算成本。

关键设计：论文中关于病例检索的具体方法、语义相似度度量的选择、提示构建的策略、以及VLM模型的选择等关键设计细节未知。损失函数和网络结构等细节也未在摘要中提及。

📊 实验亮点

该研究表明，检索增强的VLM框架在黑色素瘤诊断中显著提高了分类准确性和纠错能力，优于传统的基线方法。具体的性能数据和提升幅度未在摘要中给出，但强调了该方法在无需微调的情况下，实现了知情的预测。

🎯 应用场景

该研究成果可应用于临床决策支持系统，辅助医生进行黑色素瘤的早期诊断。通过整合患者的皮肤镜图像、临床元数据和相似病例信息，该方法能够提供更准确、更全面的诊断建议，从而改善患者的预后。未来，该方法还可以扩展到其他疾病的诊断，具有广阔的应用前景。

📄 摘要（原文）

Accurate and early diagnosis of malignant melanoma is critical for improving patient outcomes. While convolutional neural networks (CNNs) have shown promise in dermoscopic image analysis, they often neglect clinical metadata and require extensive preprocessing. Vision-language models (VLMs) offer a multimodal alternative but struggle to capture clinical specificity when trained on general-domain data. To address this, we propose a retrieval-augmented VLM framework that incorporates semantically similar patient cases into the diagnostic prompt. Our method enables informed predictions without fine-tuning and significantly improves classification accuracy and error correction over conventional baselines. These results demonstrate that retrieval-augmented prompting provides a robust strategy for clinical decision support.

Retrieval-Augmented VLMs for Multimodal Melanoma Diagnosis

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册