Why Text Prevails: Vision May Undermine Multimodal Medical Decision Making

📄 arXiv: 2512.13747v1 📥 PDF

作者: Siyuan Dai, Lunxiao Li, Kun Zhao, Eardi Lila, Paul K. Crane, Heng Huang, Dongkuan Xu, Haoteng Tang, Liang Zhan

分类: cs.CV, cs.AI

发布日期: 2025-12-15

备注: Accepted by ICDM 2025 the Workshop on Synergy of AI and Multimodal Biomedical Data Mining


💡 一句话要点

多模态医学决策中,文本信息优于视觉信息,揭示MLLM视觉理解不足

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 医学决策 视觉理解 大型语言模型 阿尔茨海默病 胸部X光片 上下文学习

📋 核心要点

  1. 现有MLLM在医学决策任务中表现不佳,尤其是在视觉信息微妙或复杂的场景下,存在视觉理解不足的问题。
  2. 通过对比文本、视觉以及多模态输入,发现文本信息在医学决策中起主导作用,多模态融合甚至可能降低性能。
  3. 提出了三种策略来提升MLLM的医学决策能力:上下文学习、视觉描述+文本推理、视觉塔的少量样本微调。

📝 摘要(中文)

随着大型语言模型(LLMs)的快速发展,先进的多模态大型语言模型(MLLMs)在视觉-语言任务上展现了令人印象深刻的零样本能力。然而,在生物医学领域,即使是最先进的MLLMs也难以完成基本的医学决策(MDM)任务。本研究通过两个具有挑战性的数据集来探究这一局限性:(1)三阶段阿尔茨海默病(AD)分类(正常、轻度认知障碍、痴呆),其中类别差异在视觉上很微妙;(2)MIMIC-CXR胸部X光片分类,包含14种非互斥的疾病。实证研究表明,仅使用文本的推理始终优于仅使用视觉或视觉-文本的设置,多模态输入通常比仅使用文本的效果更差。为了缓解这个问题,我们探索了三种策略:(1)使用带有原因注释的示例进行上下文学习;(2)视觉描述后进行纯文本推理;(3)使用分类监督对视觉塔进行少量样本微调。这些发现表明,当前的MLLMs缺乏扎实的视觉理解,并为改进医疗保健中的多模态决策提供了有希望的方向。

🔬 方法详解

问题定义:论文旨在解决多模态大型语言模型(MLLMs)在医学决策(MDM)任务中表现不佳的问题,尤其是在处理视觉信息复杂或细微的医学图像时。现有方法,即直接将医学图像和文本信息输入MLLM进行决策,往往无法达到理想的效果,甚至不如仅使用文本信息。这表明MLLMs在医学领域缺乏有效的视觉理解和推理能力,限制了其在临床实践中的应用潜力。

核心思路:论文的核心思路是探究MLLMs在医学决策中对视觉和文本信息的依赖程度,并尝试通过不同的策略来提升其视觉理解能力。通过对比不同模态输入的性能,揭示了文本信息在当前MLLMs中的主导地位。然后,针对MLLMs视觉理解不足的问题,提出了三种不同的解决方案,旨在提高模型对医学图像的理解和利用能力。

技术框架:论文采用实证研究的方法,主要包括以下几个阶段:1) 数据集构建与准备:使用两个具有挑战性的医学数据集,包括阿尔茨海默病(AD)分类和MIMIC-CXR胸部X光片分类。2) 模型评估:对比文本、视觉和多模态输入在医学决策任务中的性能。3) 策略探索:针对MLLMs视觉理解不足的问题,探索三种解决方案:上下文学习、视觉描述+文本推理、视觉塔的少量样本微调。4) 结果分析:分析实验结果,评估不同策略的有效性,并探讨MLLMs在医学决策中的局限性。

关键创新:论文的关键创新在于揭示了当前MLLMs在医学决策中对文本信息的过度依赖,以及视觉理解的不足。通过实验证明,即使在视觉信息重要的医学图像分析任务中,文本信息仍然占据主导地位,多模态融合甚至可能降低性能。此外,论文提出的三种策略为提升MLLMs的医学决策能力提供了新的思路。

关键设计:论文的关键设计包括:1) 使用具有挑战性的医学数据集,以评估MLLMs的视觉理解能力。2) 对比不同模态输入的性能,以揭示文本信息的主导地位。3) 探索三种不同的解决方案,包括上下文学习、视觉描述+文本推理、视觉塔的少量样本微调。4) 针对视觉塔的少量样本微调,采用了分类监督的方式,以提高模型对医学图像的识别能力。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,在阿尔茨海默病分类和MIMIC-CXR胸部X光片分类任务中,仅使用文本的推理性能优于仅使用视觉或视觉-文本的设置。多模态输入甚至可能比仅使用文本的效果更差。通过提出的三种策略,可以在一定程度上提升MLLM的医学决策能力,但仍有很大的提升空间。

🎯 应用场景

该研究成果可应用于辅助医生进行疾病诊断、病情评估和治疗方案制定。通过提升MLLM对医学图像的理解能力,可以减少误诊率,提高诊断效率,并为患者提供更精准的个性化治疗方案。未来,该研究有望推动智能医疗的发展,实现更高效、更智能的医疗服务。

📄 摘要(原文)

With the rapid progress of large language models (LLMs), advanced multimodal large language models (MLLMs) have demonstrated impressive zero-shot capabilities on vision-language tasks. In the biomedical domain, however, even state-of-the-art MLLMs struggle with basic Medical Decision Making (MDM) tasks. We investigate this limitation using two challenging datasets: (1) three-stage Alzheimer's disease (AD) classification (normal, mild cognitive impairment, dementia), where category differences are visually subtle, and (2) MIMIC-CXR chest radiograph classification with 14 non-mutually exclusive conditions. Our empirical study shows that text-only reasoning consistently outperforms vision-only or vision-text settings, with multimodal inputs often performing worse than text alone. To mitigate this, we explore three strategies: (1) in-context learning with reason-annotated exemplars, (2) vision captioning followed by text-only inference, and (3) few-shot fine-tuning of the vision tower with classification supervision. These findings reveal that current MLLMs lack grounded visual understanding and point to promising directions for improving multimodal decision making in healthcare.