CFCML: A Coarse-to-Fine Crossmodal Learning Framework For Disease Diagnosis Using Multimodal Images and Tabular Data

作者: Tianling Liu, Hongying Liu, Fanhua Shang, Lequan Yu, Tong Han, Liang Wan

分类: cs.CV

发布日期: 2026-03-20

🔗 代码/项目: GITHUB

💡 一句话要点

提出CFCML框架，通过粗细粒度跨模态学习提升多模态医学图像和表格数据的疾病诊断准确率。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 跨模态学习 医学图像 表格数据 疾病诊断 粗细粒度学习 对比学习 分层锚点关系挖掘

📋 核心要点

现有跨模态学习方法主要关注高层编码器输出的关系，忽略了图像局部信息和任务相关信息的提取。
CFCML框架通过粗细粒度学习，逐步缩小图像和表格数据间的模态差异，并利用分层锚点关系挖掘提取判别性跨模态信息。
实验结果表明，CFCML在MEN和Derm7pt数据集上分别取得了1.53%和0.91%的AUC指标提升，优于现有方法。

📝 摘要（中文）

本文提出了一种新颖的粗细粒度跨模态学习(CFCML)框架，用于利用多模态图像和表格数据进行疾病诊断，旨在逐步缩小模态间的差异，并充分探索模态间的关系。在粗略阶段，该框架探索来自不同图像编码器阶段的多粒度特征与表格信息之间的关系，从而初步减少模态差异。在精细阶段，生成包含类别信息的单模态和跨模态原型，并建立分层锚点关系挖掘(HRM)策略，以进一步缩小模态差异并提取判别性跨模态信息。该策略利用模态样本、单模态原型和跨模态原型作为锚点，开发对比学习方法，从而有效地增强类间差异，同时从多个角度减少类内差异。实验结果表明，该方法优于最先进(SOTA)的方法，在MEN和Derm7pt数据集上的AUC指标分别提高了1.53%和0.91%。代码已开源。

🔬 方法详解

问题定义：现有跨模态学习方法在医学图像和表格数据融合进行疾病诊断时，存在模态差异大的问题，并且忽略了图像的局部信息以及任务相关信息的提取，导致诊断准确率不高。这些方法主要集中在高层特征的融合，未能充分利用图像的底层信息和类别信息。

核心思路：CFCML框架的核心思路是通过粗细粒度的学习方式，逐步缩小医学图像和表格数据之间的模态差异。首先在粗粒度阶段，利用多粒度的图像特征与表格数据进行融合，初步减少模态差异。然后在细粒度阶段，通过生成包含类别信息的单模态和跨模态原型，并利用分层锚点关系挖掘策略，进一步提取判别性跨模态信息，从而提升诊断准确率。

技术框架：CFCML框架主要包含两个阶段：粗粒度学习阶段和细粒度学习阶段。在粗粒度学习阶段，框架提取图像在不同编码器阶段的多粒度特征，并与表格数据进行融合。在细粒度学习阶段，框架首先生成单模态和跨模态原型，然后利用分层锚点关系挖掘策略，通过对比学习的方式，进一步缩小模态差异，并提取判别性特征。整体流程是从粗到细，逐步提升跨模态特征的表达能力。

关键创新：CFCML的关键创新在于提出了粗细粒度的跨模态学习框架，以及分层锚点关系挖掘策略。粗细粒度学习能够充分利用图像的多层次信息，而分层锚点关系挖掘策略则能够有效地提取判别性跨模态信息，从而提升诊断准确率。与现有方法相比，CFCML更加注重图像的局部信息和类别信息，并且能够更好地处理模态差异问题。

关键设计：在粗粒度学习阶段，使用了多个卷积层的输出作为图像的多粒度特征。在细粒度学习阶段，使用了对比学习损失函数，以增强类间差异，减少类内差异。分层锚点关系挖掘策略中，使用了模态样本、单模态原型和跨模态原型作为锚点，从多个角度进行对比学习。具体的网络结构和参数设置在论文中有详细描述，损失函数的权重也需要根据具体数据集进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，CFCML框架在MEN和Derm7pt数据集上均取得了显著的性能提升。在MEN数据集上，CFCML的AUC指标比SOTA方法提高了1.53%，在Derm7pt数据集上，AUC指标提高了0.91%。这些结果表明，CFCML框架能够有效地融合医学图像和表格数据，并提取判别性特征，从而提升疾病诊断的准确率。

🎯 应用场景

CFCML框架在医疗诊断领域具有广泛的应用前景，可以应用于多种疾病的诊断，例如皮肤病、眼科疾病等。通过融合医学图像和表格数据，可以为医生提供更全面、准确的诊断信息，从而提高诊断效率和准确率，并最终改善患者的治疗效果。未来，该框架还可以扩展到其他多模态医疗数据，例如基因数据、文本病历等，以实现更精准的个性化医疗。

📄 摘要（原文）

In clinical practice, crossmodal information including medical images and tabular data is essential for disease diagnosis. There exists a significant modality gap between these data types, which obstructs advancements in crossmodal diagnostic accuracy. Most existing crossmodal learning (CML) methods primarily focus on exploring relationships among high-level encoder outputs, leading to the neglect of local information in images. Additionally, these methods often overlook the extraction of task-relevant information. In this paper, we propose a novel coarse-to-fine crossmodal learning (CFCML) framework to progressively reduce the modality gap between multimodal images and tabular data, by thoroughly exploring inter-modal relationships. At the coarse stage, we explore the relationships between multi-granularity features from various image encoder stages and tabular information, facilitating a preliminary reduction of the modality gap. At the fine stage, we generate unimodal and crossmodal prototypes that incorporate class-aware information, and establish hierarchical anchor-based relationship mining (HRM) strategy to further diminish the modality gap and extract discriminative crossmodal information. This strategy utilize modality samples, unimodal prototypes, and crossmodal prototypes as anchors to develop contrastive learning approaches, effectively enhancing inter-class disparity while reducing intra-class disparity from multiple perspectives. Experimental results indicate that our method outperforms the state-of-the-art (SOTA) methods, achieving improvements of 1.53% and 0.91% in AUC metrics on the MEN and Derm7pt datasets, respectively. The code is available at https://github.com/IsDling/CFCML.

CFCML: A Coarse-to-Fine Crossmodal Learning Framework For Disease Diagnosis Using Multimodal Images and Tabular Data

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理