JI-ADF: Joint-Individual Learning with Adaptive Decision Fusion for Multimodal Skin Lesion Classification
作者: Phan Nguyen, Dat Cao, Quang Hien Kha, Hien Chu, Minh H. N. Le, Trang Quoc Thao Pham, Nguyen Quoc Khanh Le
分类: cs.CV
发布日期: 2026-04-30
💡 一句话要点
提出JI-ADF框架,融合多模态信息,提升皮肤病灶分类的准确性和临床实用性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 皮肤病灶分类 多模态学习 深度学习 自适应决策融合 医学图像分析
📋 核心要点
- 现有皮肤病灶分类系统过度依赖单一模态数据,忽略了临床中常用的多模态信息。
- JI-ADF框架融合皮肤镜图像、临床照片和患者元数据,通过自适应决策融合动态调整模态贡献。
- 在MILK10k数据集上,JI-ADF在敏感性、Dice系数等方面均有提升,验证了其有效性。
📝 摘要(中文)
皮肤病灶分类对于皮肤科疾病的早期诊断至关重要。现有计算机辅助系统主要依赖皮肤镜图像,未能充分利用临床实践中常用的多模态证据。为了解决这个问题,我们提出了JI-ADF,一个三模态深度学习框架,它集成了皮肤镜图像、临床照片和结构化的患者元数据,用于临床皮肤病灶分类。该架构结合了联合多模态表示学习、模态特定的辅助监督以及自适应决策融合机制,后者可以动态地校准每个样本的模态贡献。为了增强跨模态推理,同时保留模态特定的证据,我们进一步引入了多模态融合注意力(MMFA)模块。我们在大规模MILK10k基准上评估了JI-ADF,该基准反映了真实的临床采集条件和严重的类别不平衡。实验结果表明,该方法在各种病灶类别中表现出强大且均衡的性能,提高了敏感性和Dice系数,同时保持了高特异性和良好的校准。包括模态消融、校准评估和Grad-CAM可视化在内的大量分析进一步证实了模型的鲁棒性和临床意义。这些结果表明,JI-ADF为真实临床环境中的多模态皮肤病灶分类提供了一个可靠且实用的基础。
🔬 方法详解
问题定义:现有皮肤病灶分类方法主要依赖皮肤镜图像,忽略了临床实践中常用的其他模态信息,如临床照片和患者元数据。这导致模型无法充分利用可用的临床证据,限制了其在真实临床环境中的应用。此外,不同模态的信息贡献度因病例而异,现有方法难以有效融合这些异构信息。
核心思路:JI-ADF的核心思路是利用联合-个体学习框架,同时学习多模态数据的共享表示和模态特定表示。通过自适应决策融合机制,模型可以根据每个样本的特点,动态地调整不同模态的贡献权重,从而实现更准确的分类。此外,引入多模态融合注意力(MMFA)模块,增强跨模态推理能力,同时保留模态特定信息。
技术框架:JI-ADF框架包含三个主要模块:1) 多模态特征提取模块,分别提取皮肤镜图像、临床照片和患者元数据的特征;2) 联合-个体学习模块,学习多模态数据的共享表示和模态特定表示;3) 自适应决策融合模块,根据每个样本的特点,动态地调整不同模态的贡献权重,最终进行分类。MMFA模块嵌入在特征提取模块中,用于增强跨模态推理。
关键创新:JI-ADF的关键创新在于以下几点:1) 提出了联合-个体学习框架,能够同时学习多模态数据的共享表示和模态特定表示;2) 引入了自适应决策融合机制,能够动态地调整不同模态的贡献权重;3) 设计了多模态融合注意力(MMFA)模块,增强跨模态推理能力。与现有方法相比,JI-ADF能够更有效地利用多模态信息,提高分类准确性和鲁棒性。
关键设计:在联合-个体学习模块中,使用了对比学习损失来促进共享表示的学习,并使用模态特定的辅助监督来增强模态特定表示的学习。自适应决策融合模块使用一个注意力机制来学习每个模态的权重。MMFA模块使用一个Transformer结构来建模不同模态之间的关系。损失函数包括分类损失、对比学习损失和辅助监督损失。具体参数设置和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
JI-ADF在MILK10k数据集上取得了显著的性能提升,在保持高特异性的前提下,提高了敏感性和Dice系数。消融实验表明,联合-个体学习、自适应决策融合和MMFA模块均对性能提升有贡献。Grad-CAM可视化结果表明,模型能够关注到病灶的关键区域,具有良好的可解释性。
🎯 应用场景
JI-ADF框架可应用于皮肤科疾病的早期诊断,辅助医生进行更准确的病灶分类。该研究具有重要的临床价值,有助于提高诊断效率和准确性,减少误诊和漏诊。未来,该框架可以扩展到其他医学图像分析任务,例如肿瘤检测和疾病预测,具有广阔的应用前景。
📄 摘要(原文)
Skin lesion classification is essential for early dermatological diagnosis, yet many existing computer-aided systems rely primarily on dermoscopic images and underutilize the multimodal evidence routinely available in clinical practice. To address this gap, we propose \textbf{JI-ADF}, a trimodal deep learning framework that integrates dermoscopic images, clinical photographs, and structured patient metadata for clinically grounded skin lesion classification. The proposed architecture combines joint multimodal representation learning with modality-specific auxiliary supervision and an adaptive decision fusion mechanism that dynamically calibrates modality contributions on a per-sample basis. To enhance cross-modal reasoning while preserving modality-specific evidence, we further introduce a multimodal fusion attention (MMFA) module. We evaluate JI-ADF on the large-scale MILK10k benchmark, which reflects real-world clinical acquisition conditions and severe class imbalance. The proposed method demonstrates strong and well-balanced performance across lesion categories, improving sensitivity and Dice score while maintaining high specificity and good calibration. Extensive analyses, including modality ablation, calibration evaluation, and Grad-CAM visualization, further confirm the robustness and clinically meaningful behavior of the model. These results indicate that JI-ADF provides a reliable and practical foundation for multimodal skin lesion classification in real-world clinical settings.