On the Risk of Misleading Reports: Diagnosing Textual Biases in Multimodal Clinical AI
作者: David Restrepo, Ira Ktena, Maria Vakalopoulou, Stergios Christodoulidis, Enzo Ferrante
分类: cs.CV, cs.CL
发布日期: 2025-07-31
备注: Accepted to MICCAI 2025 1st Workshop on Multimodal Large Language Models (MLLMs) in Clinical Practice
💡 一句话要点
提出选择性模态转移(SMS)方法,诊断多模态临床AI中文本偏差风险。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 视觉-语言模型 临床AI 文本偏差 模型诊断 医学图像 可解释性
📋 核心要点
- 现有视觉-语言模型在临床决策中存在对文本信息的过度依赖,忽略了重要的视觉信息,导致潜在的误诊风险。
- 论文提出选择性模态转移(SMS)方法,通过扰动图像和文本模态,量化模型对不同模态的依赖程度,从而诊断文本偏差。
- 实验结果表明,即使在医学图像存在的情况下,现有模型仍然过度依赖文本信息,这突显了开发更平衡的多模态模型的必要性。
📝 摘要(中文)
临床决策依赖于对医学图像和相关临床报告的综合分析。视觉-语言模型(VLMs)虽然为这类任务提供了一个统一的框架,但它们可能表现出对某一模态的强烈偏见,经常忽略关键的视觉线索而偏向于文本信息。本文提出了一种基于扰动的选择性模态转移(SMS)方法,用于量化模型在二元分类任务中对每种模态的依赖程度。通过系统地交换具有相反标签的样本之间的图像或文本,揭示了模态特异性偏差。我们在两个具有不同模态的医学成像数据集MIMIC-CXR(胸部X光)和FairVLMed(扫描激光眼底镜)上评估了六个开源VLMs——四个通用模型和两个针对医学数据微调的模型。通过评估模型在未扰动和扰动设置下的性能和校准,我们揭示了模型对文本输入的显著依赖性,即使存在互补的视觉信息,这种依赖性仍然存在。我们还进行了基于注意力的定性分析,进一步证实了图像内容经常被文本细节所掩盖。我们的研究结果强调了设计和评估真正整合视觉和文本线索的多模态医学模型的重要性,而不是仅仅依赖于单模态信号。
🔬 方法详解
问题定义:现有的视觉-语言模型(VLMs)在处理医学图像和文本报告时,容易过度依赖文本信息,忽略图像中的关键视觉线索。这种偏差可能导致模型在临床决策中做出错误的判断,尤其是在图像信息与文本信息不一致的情况下。现有方法缺乏有效量化模型对不同模态依赖程度的手段,难以诊断和解决这种文本偏差问题。
核心思路:论文的核心思路是通过引入扰动,即选择性地交换不同样本的图像和文本,来观察模型性能的变化。如果模型过度依赖文本,那么交换文本后模型性能会显著下降,而交换图像的影响则相对较小。通过这种方式,可以量化模型对每种模态的依赖程度,从而诊断文本偏差。
技术框架:SMS方法主要包含以下几个步骤:1) 选择二元分类任务和相应的数据集(包含图像和文本);2) 定义扰动策略,即选择性地交换样本的图像或文本;3) 使用原始数据和扰动后的数据训练或评估VLM模型;4) 分析模型在不同扰动下的性能变化,计算模型对每种模态的依赖程度。整体流程简单易行,可以方便地应用于各种VLM模型和医学数据集。
关键创新:SMS方法的关键创新在于其扰动策略,通过选择性地交换图像和文本,能够有效地揭示模型对不同模态的依赖程度。与传统的模型分析方法相比,SMS方法更加直观和有效,能够直接量化文本偏差的风险。此外,SMS方法不需要修改模型结构或训练过程,可以作为一种通用的模型诊断工具。
关键设计:SMS方法的关键设计在于扰动策略的选择和依赖程度的量化指标。扰动策略需要保证交换后的样本仍然具有一定的合理性,例如,交换的样本应该具有相似的特征或标签。依赖程度的量化指标可以使用模型性能的变化(如准确率、F1-score)或校准误差等。论文中具体使用了准确率和校准误差作为量化指标,并对不同扰动下的模型性能进行了统计分析。
🖼️ 关键图片
📊 实验亮点
在MIMIC-CXR和FairVLMed数据集上的实验结果表明,通用VLM和医学微调VLM都表现出对文本输入的显著依赖性。即使在图像信息存在的情况下,模型仍然过度依赖文本信息进行预测。通过SMS方法量化了这种依赖程度,并进行了注意力机制的可视化分析,进一步证实了图像内容经常被文本细节所掩盖。
🎯 应用场景
该研究成果可应用于评估和改进多模态医学AI系统,例如辅助诊断、疾病预测等。通过SMS方法,可以诊断模型中的文本偏差,并指导模型设计者开发更平衡、更可靠的多模态模型。这有助于提高临床决策的准确性和可靠性,减少误诊风险,最终改善患者的治疗效果。
📄 摘要(原文)
Clinical decision-making relies on the integrated analysis of medical images and the associated clinical reports. While Vision-Language Models (VLMs) can offer a unified framework for such tasks, they can exhibit strong biases toward one modality, frequently overlooking critical visual cues in favor of textual information. In this work, we introduce Selective Modality Shifting (SMS), a perturbation-based approach to quantify a model's reliance on each modality in binary classification tasks. By systematically swapping images or text between samples with opposing labels, we expose modality-specific biases. We assess six open-source VLMs-four generalist models and two fine-tuned for medical data-on two medical imaging datasets with distinct modalities: MIMIC-CXR (chest X-ray) and FairVLMed (scanning laser ophthalmoscopy). By assessing model performance and the calibration of every model in both unperturbed and perturbed settings, we reveal a marked dependency on text input, which persists despite the presence of complementary visual information. We also perform a qualitative attention-based analysis which further confirms that image content is often overshadowed by text details. Our findings highlight the importance of designing and evaluating multimodal medical models that genuinely integrate visual and textual cues, rather than relying on single-modality signals.