Lost in the Hype: Revealing and Dissecting the Performance Degradation of Medical Multimodal Large Language Models in Image Classification
作者: Xun Zhu, Fanbin Mo, Xi Chen, Kaili Zheng, Shaoshuai Yang, Yiming Shi, Jian Gao, Miao Li, Ji Wu
分类: cs.CV, cs.AI, cs.LG
发布日期: 2026-04-09
💡 一句话要点
揭示医学多模态大语言模型在图像分类中性能退化的原因与机理
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 医学图像分类 多模态大语言模型 特征探测 性能退化 信息流分析
📋 核心要点
- 现有医学多模态大语言模型(MLLMs)在医学图像分类任务中,性能显著低于传统深度学习模型,亟需探究性能退化的根本原因。
- 通过特征探测技术,逐模块、逐层地跟踪视觉特征在MLLM中的信息流动,从而可视化分类信号的扭曲、稀释或覆盖过程。
- 实验揭示了视觉表示质量、连接器保真度、LLM推理能力和语义映射对齐等四个关键失败模式,并提出了量化特征演变健康程度的指标。
📝 摘要(中文)
多模态大语言模型(MLLMs)的兴起在医学图像分析领域引发了前所未有的应用浪潮。然而,作为最早集成到该范式中的任务之一,医学图像分类揭示了一个令人警醒的现实:尽管在预训练数据和模型参数方面具有巨大优势,但最先进的医学MLLMs在性能上始终不如传统的深度学习模型。这种悖论促使我们进行批判性反思:性能退化究竟源于何处?本文对14个开源医学MLLMs在三个代表性的图像分类数据集上进行了广泛的实验。我们超越了表面的性能基准测试,采用特征探测来跟踪视觉特征在整个MLLM流程中逐模块、逐层的的信息流,从而能够显式地可视化分类信号在何处以及如何被扭曲、稀释或覆盖。作为首次尝试剖析医学MLLMs中分类性能退化的工作,我们的研究结果揭示了四个失败模式:1)视觉表示的质量限制,2)连接器投影中的保真度损失,3)LLM推理中的理解缺陷,以及4)语义映射的错位。同时,我们引入了量化分数来表征特征演变的健康程度,从而能够对不同的MLLMs和数据集进行有原则的比较。此外,我们还围绕着阻止当前医学MLLMs实现其承诺的临床潜力的关键障碍进行了深刻的讨论。我们希望我们的工作能够引发社区内的反思,强调从高期望到临床可部署的MLLMs的道路仍然漫长而曲折。
🔬 方法详解
问题定义:论文旨在解决医学多模态大语言模型(MLLMs)在医学图像分类任务中性能不如传统深度学习模型的问题。现有方法虽然参数量大、预训练数据丰富,但在实际应用中却表现不佳,其根本原因尚不明确。这阻碍了MLLMs在医疗领域的进一步应用。
核心思路:论文的核心思路是通过特征探测技术,深入分析MLLM内部的信息流动,从而定位性能退化的关键环节。通过观察视觉特征在不同模块和层级的变化,揭示分类信号在传递过程中如何被扭曲、稀释或覆盖。
技术框架:论文的技术框架主要包括以下几个阶段:1)选择代表性的医学图像分类数据集和开源医学MLLMs;2)设计特征探测方案,提取MLLM各模块和层级的视觉特征;3)分析特征演变过程,识别性能退化的关键节点;4)量化特征演变的健康程度,提出评估指标;5)总结失败模式,并讨论改进方向。
关键创新:论文最重要的技术创新点在于将特征探测技术应用于医学MLLMs的性能分析。通过这种方法,可以深入了解模型内部的信息处理过程,从而找到性能瓶颈。此外,论文还提出了量化特征演变健康程度的指标,为不同MLLMs的比较提供了依据。
关键设计:论文的关键设计包括:1)选择具有代表性的医学图像分类数据集,如胸部X光、皮肤镜图像等;2)选择多个开源医学MLLMs,覆盖不同的模型结构和训练策略;3)设计合理的特征提取方案,保证特征的代表性和可比性;4)定义量化指标,如特征相似度、信息熵等,用于评估特征演变的健康程度;5)采用可视化技术,直观展示特征演变过程。
🖼️ 关键图片
📊 实验亮点
实验结果表明,医学MLLMs在视觉表示、连接器投影、LLM推理和语义映射等方面存在性能退化。通过特征探测,论文量化了这些退化程度,并提出了改进方向。例如,发现视觉表示的质量限制是性能瓶颈之一,表明需要更强大的视觉编码器。
🎯 应用场景
该研究成果可应用于指导医学多模态大语言模型的设计和优化,提升其在医学图像分类任务中的性能。通过诊断模型内部的性能瓶颈,可以针对性地改进模型结构、训练策略和数据预处理方法,从而推动MLLMs在医疗诊断、疾病预测等领域的应用。
📄 摘要(原文)
The rise of multimodal large language models (MLLMs) has sparked an unprecedented wave of applications in the field of medical imaging analysis. However, as one of the earliest and most fundamental tasks integrated into this paradigm, medical image classification reveals a sobering reality: state-of-the-art medical MLLMs consistently underperform compared to traditional deep learning models, despite their overwhelming advantages in pre-training data and model parameters. This paradox prompts a critical rethinking: where exactly does the performance degradation originate? In this paper, we conduct extensive experiments on 14 open-source medical MLLMs across three representative image classification datasets. Moving beyond superficial performance benchmarking, we employ feature probing to track the information flow of visual features module-by-module and layer-by-layer throughout the entire MLLM pipeline, enabling explicit visualization of where and how classification signals are distorted, diluted, or overridden. As the first attempt to dissect classification performance degradation in medical MLLMs, our findings reveal four failure modes: 1) quality limitation in visual representation, 2) fidelity loss in connector projection, 3) comprehension deficit in LLM reasoning, and 4) misalignment of semantic mapping. Meanwhile, we introduce quantitative scores that characterize the healthiness of feature evolution, enabling principled comparisons across diverse MLLMs and datasets. Furthermore, we provide insightful discussions centered on the critical barriers that prevent current medical MLLMs from fulfilling their promised clinical potential. We hope that our work provokes rethinking within the community-highlighting that the road from high expectations to clinically deployable MLLMs remains long and winding.