DBMF: A Dual-Branch Multimodal Framework for Out-of-Distribution Detection

📄 arXiv: 2604.08261v1 📥 PDF

作者: Jiangbei Yue, Sharib Ali

分类: cs.CV, cs.AI

发布日期: 2026-04-09


💡 一句话要点

提出双分支多模态框架DBMF,用于提升医学图像领域OOD检测性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: OOD检测 多模态学习 医学图像 深度学习 双分支网络 文本图像匹配 异常检测

📋 核心要点

  1. 现有OOD检测方法在医学图像领域存在局限,未能充分利用图像和文本的多模态信息。
  2. DBMF框架通过双分支结构,分别处理文本-图像和视觉信息,实现更全面的OOD样本识别。
  3. 实验结果表明,DBMF在内窥镜图像OOD检测任务上显著优于现有方法,性能提升高达24.84%。

📝 摘要(中文)

本文提出了一种新颖的双分支多模态框架(DBMF),用于解决复杂临床环境中深度学习系统可靠性问题,特别是针对超出训练分布(OOD)的数据,如未见过的疾病病例。现有OOD检测方法通常依赖于单一视觉模态或图像-文本匹配,未能充分利用多模态信息。DBMF通过引入文本-图像分支和视觉分支,充分利用多模态表示,通过这两个互补的分支来识别OOD样本。训练后,计算文本-图像分支的得分($S_t$)和视觉分支的得分($S_v$),并将它们整合以获得最终的OOD得分$S$,该得分与阈值进行比较以进行OOD检测。在公开的内窥镜图像数据集上的综合实验表明,所提出的框架在不同的骨干网络上具有鲁棒性,并在OOD检测中将最先进的性能提高了高达24.84%。

🔬 方法详解

问题定义:论文旨在解决医学图像领域中,深度学习模型在遇到超出训练分布(OOD)数据时的可靠性问题。现有方法主要依赖于单一模态(视觉)或简单的图像-文本匹配,无法充分利用多模态信息,导致OOD检测性能受限。特别是在临床环境中,模型需要能够识别未见过的疾病病例,这对模型的泛化能力提出了更高的要求。

核心思路:论文的核心思路是利用多模态信息互补的特性,通过构建双分支结构,分别从文本-图像和视觉两个角度提取特征,并融合这些特征进行OOD检测。这种方法能够更全面地捕捉OOD样本的特征,提高检测的准确性和鲁棒性。

技术框架:DBMF框架包含两个主要分支:文本-图像分支和视觉分支。文本-图像分支负责处理图像和相关的文本描述,提取图像和文本之间的关联信息。视觉分支则专注于图像本身的特征提取。两个分支分别计算OOD得分($S_t$和$S_v$),然后将这两个得分进行融合,得到最终的OOD得分$S$。最后,将$S$与预设的阈值进行比较,判断样本是否为OOD样本。

关键创新:DBMF的关键创新在于其双分支多模态结构,它能够充分利用图像和文本之间的互补信息,从而更有效地识别OOD样本。与现有方法相比,DBMF不仅考虑了图像的视觉特征,还考虑了图像与文本描述之间的语义一致性,从而提高了OOD检测的准确性和鲁棒性。

关键设计:在具体实现上,文本-图像分支可以使用预训练的CLIP模型,提取图像和文本的联合表示。视觉分支可以使用各种图像分类模型作为骨干网络,例如ResNet、DenseNet等。OOD得分的融合可以使用加权平均或其他融合策略。损失函数的设计需要考虑OOD样本的区分性,例如可以使用对比损失或最大化OOD样本的得分。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DBMF框架在内窥镜图像OOD检测任务上取得了显著的性能提升,相比于现有最先进的方法,性能提升高达24.84%。该框架在不同的骨干网络上都表现出良好的鲁棒性,证明了其有效性和泛化能力。实验结果验证了多模态信息融合在OOD检测中的优势。

🎯 应用场景

该研究成果可应用于医疗诊断辅助系统,提高深度学习模型在临床环境中的可靠性。通过检测OOD样本,可以避免模型对未见过的疾病病例做出错误的预测,从而保障患者安全。此外,该方法还可以扩展到其他领域,例如自动驾驶、工业质检等,提高模型在复杂环境中的适应能力。

📄 摘要(原文)

The complex and dynamic real-world clinical environment demands reliable deep learning (DL) systems. Out-of-distribution (OOD) detection plays a critical role in enhancing the reliability and generalizability of DL models when encountering data that deviate from the training distribution, such as unseen disease cases. However, existing OOD detection methods typically rely either on a single visual modality or solely on image-text matching, failing to fully leverage multimodal information. To overcome the challenge, we propose a novel dual-branch multimodal framework by introducing a text-image branch and a vision branch. Our framework fully exploits multimodal representations to identify OOD samples through these two complementary branches. After training, we compute scores from the text-image branch ($S_t$) and vision branch ($S_v$), and integrate them to obtain the final OOD score $S$ that is compared with a threshold for OOD detection. Comprehensive experiments on publicly available endoscopic image datasets demonstrate that our proposed framework is robust across diverse backbones and improves state-of-the-art performance in OOD detection by up to 24.84%