Perceive and Calibrate: Analyzing and Enhancing Robustness of Medical Multi-Modal Large Language Models

📄 arXiv: 2512.21964v1 📥 PDF

作者: Dunyuan XU, Xikai Yang, Yaoqian Li, Juzheng Miao, Jinpeng Li, Pheng-Ann Heng

分类: cs.CV

发布日期: 2025-12-26


💡 一句话要点

提出Inherent-enhanced Multi-modal Calibration框架,提升医学多模态大语言模型在噪声环境下的鲁棒性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学多模态大语言模型 鲁棒性 噪声处理 跨模态校准 自监督学习

📋 核心要点

  1. 医学多模态大语言模型对噪声敏感,现有方法缺乏对医学图像和文本噪声的系统分析与有效处理。
  2. 提出Inherent-enhanced Multi-modal Calibration (IMC)框架,利用MLLMs自身能力进行跨模态的噪声感知和校准。
  3. 实验结果表明,该方法在包含多种噪声的医学数据集上取得了SOTA性能,有效提升了模型的鲁棒性。

📝 摘要(中文)

医学多模态大语言模型(MLLMs)展现了良好的临床应用前景。然而,它们对真实世界输入扰动的敏感性,例如图像伪影和文本错误,严重削弱了其临床适用性。目前,对噪声影响的系统性分析还不够充分。虽然一些工作研究了MLLMs在通用领域的鲁棒性,但主要集中在文本模态,并且依赖于昂贵的微调。这些方法不足以解决医学中复杂的噪声模式和满足严格的安全标准。为了弥合这一差距,本文系统地分析了各种扰动对医学MLLMs在视觉和文本模态上的影响。在此基础上,我们提出了一种无需训练的Inherent-enhanced Multi-modal Calibration (IMC)框架,该框架遵循感知和校准原则,利用MLLMs固有的去噪能力来增强跨模态鲁棒性。对于视觉模态,我们提出了一种Perturbation-aware Denoising Calibration (PDC),它利用MLLMs自身的视觉编码器来识别噪声模式并执行原型引导的特征校准。对于文本去噪,我们设计了一个Self-instantiated Multi-agent System (SMS),它利用MLLMs的自我评估能力,通过代理的协作层次来改进噪声文本。我们在包含图像和文本模态的11种噪声的2个数据集上构建了一个基准。实验结果表明,我们的方法在多个模态上实现了最先进的性能,显示出增强MLLMs在真实临床场景中鲁棒性的潜力。

🔬 方法详解

问题定义:医学多模态大语言模型(MLLMs)在真实临床环境中容易受到图像伪影和文本错误等噪声的影响,导致性能下降。现有的鲁棒性研究主要集中在通用领域,缺乏对医学领域特定噪声的分析和处理,并且依赖于计算成本高的微调方法,难以满足医学领域的安全标准。

核心思路:论文的核心思路是利用MLLMs自身固有的去噪能力,通过感知和校准的策略,在不进行额外训练的情况下,提升模型对医学图像和文本噪声的鲁棒性。这种方法避免了昂贵的微调,并且更符合医学领域对模型安全性和可解释性的要求。

技术框架:整体框架为Inherent-enhanced Multi-modal Calibration (IMC),包含两个主要模块:Perturbation-aware Denoising Calibration (PDC)用于视觉模态的噪声处理,Self-instantiated Multi-agent System (SMS)用于文本模态的噪声处理。PDC利用MLLMs的视觉编码器识别噪声模式,并进行特征校准。SMS则通过多智能体协作的方式,利用MLLMs的自我评估能力来改进噪声文本。

关键创新:最重要的技术创新点在于利用MLLMs自身的能力进行噪声感知和校准,避免了额外的训练开销。PDC和SMS分别针对视觉和文本模态设计了不同的去噪策略,充分利用了MLLMs的固有特性。SMS中多智能体协作的方式,能够更有效地利用MLLMs的自我评估能力,提升文本去噪效果。

关键设计:PDC中,使用原型引导的特征校准,通过学习噪声原型来指导特征的去噪过程。SMS中,设计了多智能体协作的层级结构,每个智能体负责不同的任务,例如噪声检测、文本改写和质量评估。具体的参数设置和损失函数等细节在论文中有详细描述,但摘要中未提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的IMC框架在包含11种噪声的医学数据集上取得了SOTA性能。与现有方法相比,该方法在视觉和文本模态上均有显著提升,证明了其在增强医学MLLMs鲁棒性方面的有效性。具体的性能数据和对比基线在论文中有详细描述,但摘要中未提及。

🎯 应用场景

该研究成果可应用于提升医学影像诊断、病历分析、医学问答等场景中医学多模态大语言模型的可靠性和准确性。通过增强模型对噪声的鲁棒性,可以减少误诊和漏诊的风险,提高临床决策的效率和安全性,具有重要的临床应用价值。

📄 摘要(原文)

Medical Multi-modal Large Language Models (MLLMs) have shown promising clinical performance. However, their sensitivity to real-world input perturbations, such as imaging artifacts and textual errors, critically undermines their clinical applicability. Systematic analysis of such noise impact on medical MLLMs remains largely unexplored. Furthermore, while several works have investigated the MLLMs' robustness in general domains, they primarily focus on text modality and rely on costly fine-tuning. They are inadequate to address the complex noise patterns and fulfill the strict safety standards in medicine. To bridge this gap, this work systematically analyzes the impact of various perturbations on medical MLLMs across both visual and textual modalities. Building on our findings, we introduce a training-free Inherent-enhanced Multi-modal Calibration (IMC) framework that leverages MLLMs' inherent denoising capabilities following the perceive-and-calibrate principle for cross-modal robustness enhancement. For the visual modality, we propose a Perturbation-aware Denoising Calibration (PDC) which leverages MLLMs' own vision encoder to identify noise patterns and perform prototype-guided feature calibration. For text denoising, we design a Self-instantiated Multi-agent System (SMS) that exploits the MLLMs' self-assessment capabilities to refine noisy text through a cooperative hierarchy of agents. We construct a benchmark containing 11 types of noise across both image and text modalities on 2 datasets. Experimental results demonstrate our method achieves the state-of-the-art performance across multiple modalities, showing potential to enhance MLLMs' robustness in real clinical scenarios.