Vision-Core Guided Contrastive Learning for Balanced Multi-modal Prognosis Prediction of Stroke

📄 arXiv: 2605.14710v1 📥 PDF

作者: Liren Chen, Lidong Sun, Mingyan Huang, Junzhe Tang, Yinghui Zhu, Guanjie Wang, Yiqing Xia, Ting Xiao

分类: cs.CV, cs.AI

发布日期: 2026-05-14

备注: Corresponding author: Ting Xiao


💡 一句话要点

提出Vision-Core引导的对比学习方法,用于平衡多模态卒中预后预测。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 卒中预后预测 多模态融合 对比学习 大型语言模型 医学图像分析 自然语言处理 视觉条件融合

📋 核心要点

  1. 现有卒中预后方法主要局限于双模态融合,缺乏有效整合图像、临床数据和文本的框架。
  2. 提出Vision-Core引导的对比学习方法,利用视觉特征作为先验,指导文本交互,缓解模态异质性。
  3. 在真实临床数据集上实验表明,该模型实现了最先进的性能,验证了方法的有效性。

📝 摘要(中文)

深度学习和多模态融合在医学诊断中通过整合多样的数据源展现了变革性的潜力。然而,由于现有方法在多模态应用上的局限性,准确预测缺血性卒中仍然具有挑战性。首先,当前方法主要局限于双模态融合,缺乏有效整合医学图像、结构化临床数据和非结构化文本三者的框架。其次,它们通常无法在模态之间建立深度双向交互。为了解决这些关键差距,本文提出了一种用于缺血性卒中预后的新型三模态融合模型。我们的方法首先利用大型语言模型(LLM)从脑部MRI自动生成半结构化的诊断文本,从而丰富数据表示。这个过程不仅解决了专家注释的稀缺问题,而且作为一种正则化的语义增强,提高了多模态融合的鲁棒性。此外,我们设计了一个名为视觉条件双重对齐融合模块(VDAFM)的核心组件,该组件策略性地使用视觉特征作为条件先验来指导与生成文本的细粒度交互。该模块通过双重语义对齐损失实现动态和深刻的融合,有效缓解了模态异质性。在真实临床数据集上的大量实验表明,我们的模型实现了最先进的性能。

🔬 方法详解

问题定义:现有缺血性卒中预后方法主要存在两个痛点:一是无法有效整合医学图像、结构化临床数据和非结构化文本这三种模态的信息;二是缺乏模态间的深度双向交互,导致无法充分利用多模态数据中的互补信息。这限制了预后预测的准确性。

核心思路:本文的核心思路是利用大型语言模型(LLM)生成半结构化的诊断文本,从而丰富数据表示,并设计一个视觉条件双重对齐融合模块(VDAFM),以视觉特征为条件先验,引导文本交互,从而实现模态间的深度融合,缓解模态异质性。

技术框架:该模型包含以下几个主要阶段:1) 数据预处理:对医学图像、结构化临床数据和非结构化文本进行预处理。2) LLM文本生成:利用LLM从脑部MRI自动生成半结构化的诊断文本。3) 特征提取:提取各模态的特征表示。4) VDAFM融合:利用VDAFM模块,以视觉特征为条件,融合文本特征。5) 预后预测:基于融合后的特征进行预后预测。

关键创新:该论文最重要的技术创新点在于提出了Vision-Conditioned Dual Alignment Fusion Module (VDAFM)。VDAFM通过将视觉特征作为条件先验,引导文本特征的交互,实现了模态间的动态和深刻的融合。这种方法与现有方法的主要区别在于,它能够有效地缓解模态异质性,并充分利用多模态数据中的互补信息。

关键设计:VDAFM模块的关键设计包括:1) 使用视觉特征作为条件先验,引导文本特征的交互;2) 设计双重语义对齐损失,用于优化模态间的对齐;3) 采用对比学习方法,增强模型的鲁棒性。具体的损失函数和网络结构细节在论文中有详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该模型在真实临床数据集上进行了大量实验,结果表明,该模型实现了最先进的性能。具体性能数据和对比基线在摘要中有所提及,但未给出具体数值。通过VDAFM模块,模型能够有效地缓解模态异质性,并充分利用多模态数据中的互补信息,从而提高预后预测的准确性。

🎯 应用场景

该研究成果可应用于临床辅助决策,帮助医生更准确地预测缺血性卒中患者的预后,从而制定更有效的治疗方案。此外,该方法也可推广到其他疾病的预后预测,具有广泛的应用前景。未来,结合更多模态的数据,例如基因数据、生理信号等,有望进一步提高预后预测的准确性。

📄 摘要(原文)

Deep learning and multi-modal fusion have demonstrated transformative potential in medical diagnosis by integrating diverse data sources. However, accurate prognosis for ischemic stroke remains challenging due to limitations in existing multi-modal approaches. First, current methods are predominantly confined to dual-modal fusion, lacking a framework that effectively integrates the trifecta of medical images, structured clinical data, and unstructured text. Second, they often fail to establish deep bidirectional interactions between modalities; To address these critical gaps, this paper proposes a novel tri-modal fusion model for ischemic stroke prognosis. Our approach first enriches the data representation by employing a Large Language Model (LLM) to automatically generate semi-structured diagnostic text from brain MRIs. This process not only addresses the scarcity of expert annotations but also serves as a regularized semantic enhancement, improving multimodal fusion robustness. Furthermore, we design a core component termed the Vision-Conditioned Dual Alignment Fusion Module (VDAFM), which strategically uses visual features as a conditional prior to guide fine-grained interaction with the generated text. This module achieves a dynamic and profound fusion through a dual semantic alignment loss, effectively mitigating modal heterogeneity. Extensive experiments on a real-world clinical dataset demonstrate that our model achieves state-of-the-art performance.