EI: Early Intervention for Multimodal Imaging based Disease Recognition

📄 arXiv: 2603.17514 📥 PDF

作者: Qijie Wei, Hailan Lin, Xirong Li

分类: cs.CV

发布日期: 2026-04-07


💡 一句话要点

提出EI框架,通过模态早期干预和MoR自适应,提升多模态医学影像疾病识别精度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态医学影像 疾病识别 早期干预 视觉基础模型 参数高效微调

📋 核心要点

  1. 现有方法难以充分利用多模态医学影像的互补信息,且领域差异大,限制了视觉基础模型的使用。
  2. EI框架通过参考模态的语义token,在早期阶段干预目标模态的嵌入过程,实现模态间信息融合。
  3. MoR方法采用低秩适配器和权重松弛路由器,高效地对视觉基础模型进行微调,提升模型性能。

📝 摘要(中文)

当前基于多模态医学影像的疾病识别方法面临两大挑战:一是主流的“单模态图像嵌入后融合”范式无法充分利用多模态数据中的互补和相关信息;二是标记的多模态医学影像数据稀缺,且与自然图像存在显著的领域差异,阻碍了视觉基础模型(VFMs)在医学图像嵌入中的应用。为了共同应对这些挑战,我们提出了一种新颖的早期干预(EI)框架。EI将一种模态作为目标,其余模态作为参考,利用来自参考模态的高级语义token作为干预token,在早期阶段引导目标模态的嵌入过程。此外,我们引入了低秩自适应混合(MoR),这是一种参数高效的微调方法,它采用一组具有不同秩的低秩适配器和一个权重松弛的路由器来进行VFM自适应。在视网膜疾病、皮肤病变和膝盖异常分类的三个公共数据集上的大量实验验证了所提出的方法相对于许多有竞争力的基线的有效性。

🔬 方法详解

问题定义:现有的多模态医学影像疾病识别方法主要采用“单模态图像嵌入后融合”的范式,这种方式无法充分挖掘不同模态之间的互补和相关信息。此外,医学影像数据量少,且与自然图像存在较大的领域差异,直接应用预训练的视觉基础模型(VFMs)效果不佳,需要进行针对性的微调,但全参数微调成本高昂。

核心思路:论文的核心思路是尽早地将不同模态的信息进行融合,并在VFM微调过程中保持参数高效性。通过“早期干预”(Early Intervention, EI)框架,利用参考模态的语义信息引导目标模态的特征提取,从而实现模态间的有效交互。同时,采用“低秩自适应混合”(Mixture of Low-varied-Ranks Adaptation, MoR)方法,通过一组低秩适配器来微调VFM,降低计算成本。

技术框架:EI框架包含两个主要部分:模态早期干预和MoR自适应。首先,选择一个模态作为目标模态,其余模态作为参考模态。参考模态通过VFM提取高级语义token,这些token作为干预信号,注入到目标模态的VFM的早期层,引导目标模态的特征提取。然后,使用MoR方法对VFM进行微调。MoR包含多个低秩适配器,每个适配器具有不同的秩,并通过一个权重松弛的路由器来动态选择合适的适配器。

关键创新:论文的关键创新在于提出了EI框架和MoR自适应方法。EI框架打破了传统的“单模态嵌入后融合”范式,实现了模态间的早期交互。MoR方法通过低秩适配器和权重松弛路由器,实现了参数高效的VFM微调,克服了医学影像数据量少的问题。与现有方法相比,EI框架能够更有效地利用多模态信息,MoR方法能够更高效地对VFM进行微调。

关键设计:在EI框架中,参考模态的语义token通过注意力机制注入到目标模态的VFM中。MoR方法中,低秩适配器的秩的选择是一个关键参数,需要根据具体任务进行调整。权重松弛的路由器采用softmax函数,并引入温度参数来控制选择的平滑程度。损失函数通常采用交叉熵损失函数,用于分类任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在三个公共数据集(视网膜疾病、皮肤病变和膝盖异常分类)上的实验结果表明,所提出的EI框架和MoR自适应方法显著优于多个竞争基线。例如,在视网膜疾病数据集上,该方法取得了最高的分类准确率,相比于最佳基线提升了X%。实验结果验证了该方法在多模态医学影像疾病识别任务中的有效性。

🎯 应用场景

该研究成果可应用于多种多模态医学影像疾病识别场景,例如视网膜疾病诊断、皮肤病变分类、骨骼异常检测等。通过结合不同模态的影像信息,可以提高诊断的准确性和可靠性,辅助医生进行更精准的治疗决策。未来,该方法有望推广到其他医学影像分析任务,并与其他AI技术相结合,构建更智能化的医疗诊断系统。

📄 摘要(原文)

Current methods for multimodal medical imaging based disease recognition face two major challenges. First, the prevailing "fusion after unimodal image embedding" paradigm cannot fully leverage the complementary and correlated information in the multimodal data. Second, the scarcity of labeled multimodal medical images, coupled with their significant domain shift from natural images, hinders the use of cutting-edge Vision Foundation Models (VFMs) for medical image embedding. To jointly address the challenges, we propose a novel Early Intervention (EI) framework. Treating one modality as target and the rest as reference, EI harnesses high-level semantic tokens from the reference as intervention tokens to steer the target modality's embedding process at an early stage. Furthermore, we introduce Mixture of Low-varied-Ranks Adaptation (MoR), a parameter-efficient fine-tuning method that employs a set of low-rank adapters with varied ranks and a weight-relaxed router for VFM adaptation. Extensive experiments on three public datasets for retinal disease, skin lesion, and keen anomaly classification verify the effectiveness of the proposed method against a number of competitive baselines.