Perceive and Calibrate: Analyzing and Enhancing Robustness of Medical Multi-Modal Large Language Models
作者: Dunyuan XU, Xikai Yang, Yaoqian Li, Juzheng Miao, Jinpeng Li, Pheng-Ann Heng
分类: cs.CV
发布日期: 2025-12-26
💡 一句话要点
提出Inherent-enhanced Multi-modal Calibration (IMC)框架,提升医学多模态大语言模型在噪声环境下的鲁棒性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 医学多模态大语言模型 鲁棒性 噪声处理 跨模态校准 无需训练 视觉去噪 文本去噪
📋 核心要点
- 医学多模态大语言模型对噪声敏感,现有方法缺乏对医学图像和文本噪声的系统分析和有效处理。
- 提出Inherent-enhanced Multi-modal Calibration (IMC)框架,利用模型自身能力进行跨模态的感知和校准,无需额外训练。
- 实验表明,该方法在包含11种噪声类型的基准测试中,取得了state-of-the-art的性能,提升了模型在真实临床场景下的鲁棒性。
📝 摘要(中文)
医学多模态大语言模型(MLLMs)展现了良好的临床应用前景。然而,它们对真实世界输入扰动(如图像伪影和文本错误)的敏感性严重削弱了其临床适用性。目前,对噪声影响的系统性分析还很缺乏。虽然一些工作研究了通用领域MLLMs的鲁棒性,但主要集中在文本模态,且依赖于昂贵的微调。这些方法不足以应对医学中复杂的噪声模式和满足严格的安全标准。为了弥补这一差距,本文系统地分析了各种扰动对医学MLLMs在视觉和文本模态上的影响。在此基础上,我们提出了一种无需训练的Inherent-enhanced Multi-modal Calibration (IMC)框架,该框架遵循感知和校准原则,利用MLLMs固有的去噪能力来增强跨模态鲁棒性。对于视觉模态,我们提出了一种Perturbation-aware Denoising Calibration (PDC),它利用MLLMs自身的视觉编码器来识别噪声模式并执行原型引导的特征校准。对于文本去噪,我们设计了一个Self-instantiated Multi-agent System (SMS),它利用MLLMs的自我评估能力,通过代理的协作层次来改进噪声文本。我们构建了一个基准,包含图像和文本模态的11种噪声类型,并在2个数据集上进行了实验。实验结果表明,我们的方法在多个模态上实现了最先进的性能,显示出增强MLLMs在真实临床场景中鲁棒性的潜力。
🔬 方法详解
问题定义:医学多模态大语言模型(MLLMs)在实际临床应用中,容易受到图像伪影、文本错误等噪声的干扰,导致性能下降。现有的鲁棒性提升方法,要么侧重于通用领域,要么依赖于昂贵的微调,无法有效解决医学领域特有的复杂噪声问题,并且缺乏对视觉和文本模态噪声的系统性分析。
核心思路:论文的核心思路是利用MLLMs自身固有的去噪能力,通过“感知-校准”的框架,在不进行额外训练的情况下,提升模型对噪声的鲁棒性。这种方法避免了微调带来的高成本,并能更好地适应医学领域的特殊需求。
技术框架:IMC框架包含两个主要模块:Perturbation-aware Denoising Calibration (PDC)和Self-instantiated Multi-agent System (SMS)。PDC负责视觉模态的噪声处理,SMS负责文本模态的噪声处理。PDC利用MLLM的视觉编码器识别噪声模式,并进行原型引导的特征校准。SMS则通过一个多智能体系统,利用MLLM的自我评估能力来改进噪声文本。整体流程是先分别对视觉和文本模态进行噪声处理,然后将处理后的信息输入MLLM进行最终的预测。
关键创新:论文的关键创新在于提出了一个无需训练的跨模态校准框架,该框架能够利用MLLMs自身的知识和能力来应对噪声干扰。PDC和SMS分别针对视觉和文本模态设计了特定的去噪策略,并巧妙地利用了MLLMs的现有组件,避免了额外的训练成本。
关键设计:PDC的关键设计在于Perturbation-aware的噪声模式识别和原型引导的特征校准。具体来说,PDC首先利用视觉编码器提取图像特征,然后通过一个噪声模式识别模块来判断图像中是否存在噪声以及噪声的类型。接着,PDC利用原型向量来引导特征校准,从而去除噪声的影响。SMS的关键设计在于多智能体系统的协作机制。每个智能体负责不同的任务,例如噪声检测、文本改写等。智能体之间通过协作来共同完成文本去噪的任务。
🖼️ 关键图片
📊 实验亮点
实验结果表明,IMC框架在包含11种噪声类型的基准测试中,取得了state-of-the-art的性能。相较于现有方法,IMC在多个模态上均有显著提升,证明了其在增强医学MLLMs鲁棒性方面的有效性。例如,在特定噪声类型下,性能提升超过10%。
🎯 应用场景
该研究成果可应用于提升医学影像诊断、病历分析等临床场景中多模态大语言模型的可靠性和准确性。通过增强模型对噪声的鲁棒性,可以减少误诊、漏诊的风险,提高医疗效率,并为远程医疗、AI辅助诊断等新兴应用提供更可靠的技术支持。
📄 摘要(原文)
Medical Multi-modal Large Language Models (MLLMs) have shown promising clinical performance. However, their sensitivity to real-world input perturbations, such as imaging artifacts and textual errors, critically undermines their clinical applicability. Systematic analysis of such noise impact on medical MLLMs remains largely unexplored. Furthermore, while several works have investigated the MLLMs' robustness in general domains, they primarily focus on text modality and rely on costly fine-tuning. They are inadequate to address the complex noise patterns and fulfill the strict safety standards in medicine. To bridge this gap, this work systematically analyzes the impact of various perturbations on medical MLLMs across both visual and textual modalities. Building on our findings, we introduce a training-free Inherent-enhanced Multi-modal Calibration (IMC) framework that leverages MLLMs' inherent denoising capabilities following the perceive-and-calibrate principle for cross-modal robustness enhancement. For the visual modality, we propose a Perturbation-aware Denoising Calibration (PDC) which leverages MLLMs' own vision encoder to identify noise patterns and perform prototype-guided feature calibration. For text denoising, we design a Self-instantiated Multi-agent System (SMS) that exploits the MLLMs' self-assessment capabilities to refine noisy text through a cooperative hierarchy of agents. We construct a benchmark containing 11 types of noise across both image and text modalities on 2 datasets. Experimental results demonstrate our method achieves the state-of-the-art performance across multiple modalities, showing potential to enhance MLLMs' robustness in real clinical scenarios.