Why Text Prevails: Vision May Undermine Multimodal Medical Decision Making

作者: Siyuan Dai, Lunxiao Li, Kun Zhao, Eardi Lila, Paul K. Crane, Heng Huang, Dongkuan Xu, Haoteng Tang, Liang Zhan

分类: cs.CV, cs.AI

发布日期: 2025-12-15

备注: Accepted by ICDM 2025 the Workshop on Synergy of AI and Multimodal Biomedical Data Mining

💡 一句话要点

多模态医学决策中，文本信息优于视觉信息，揭示MLLM视觉理解不足

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 医学决策 视觉理解 大型语言模型 阿尔茨海默病 胸部X光片 上下文学习

📋 核心要点

现有MLLM在医学决策任务中表现不佳，尤其是在视觉信息微妙或复杂的场景下，存在视觉理解不足的问题。
通过对比文本、视觉以及多模态输入，发现文本信息在医学决策中起主导作用，多模态融合甚至可能降低性能。
提出了三种策略来提升MLLM的医学决策能力：上下文学习、视觉描述+文本推理、视觉塔的少量样本微调。

📝 摘要（中文）

随着大型语言模型（LLMs）的快速发展，先进的多模态大型语言模型（MLLMs）在视觉-语言任务上展现了令人印象深刻的零样本能力。然而，在生物医学领域，即使是最先进的MLLMs也难以完成基本的医学决策（MDM）任务。本研究通过两个具有挑战性的数据集来探究这一局限性：（1）三阶段阿尔茨海默病（AD）分类（正常、轻度认知障碍、痴呆），其中类别差异在视觉上很微妙；（2）MIMIC-CXR胸部X光片分类，包含14种非互斥的疾病。实证研究表明，仅使用文本的推理始终优于仅使用视觉或视觉-文本的设置，多模态输入通常比仅使用文本的效果更差。为了缓解这个问题，我们探索了三种策略：（1）使用带有原因注释的示例进行上下文学习；（2）视觉描述后进行纯文本推理；（3）使用分类监督对视觉塔进行少量样本微调。这些发现表明，当前的MLLMs缺乏扎实的视觉理解，并为改进医疗保健中的多模态决策提供了有希望的方向。

🔬 方法详解

问题定义：论文旨在解决多模态大型语言模型（MLLMs）在医学决策（MDM）任务中表现不佳的问题，尤其是在处理视觉信息复杂或细微的医学图像时。现有方法，即直接将医学图像和文本信息输入MLLM进行决策，往往无法达到理想的效果，甚至不如仅使用文本信息。这表明MLLMs在医学领域缺乏有效的视觉理解和推理能力，限制了其在临床实践中的应用潜力。

核心思路：论文的核心思路是探究MLLMs在医学决策中对视觉和文本信息的依赖程度，并尝试通过不同的策略来提升其视觉理解能力。通过对比不同模态输入的性能，揭示了文本信息在当前MLLMs中的主导地位。然后，针对MLLMs视觉理解不足的问题，提出了三种不同的解决方案，旨在提高模型对医学图像的理解和利用能力。

技术框架：论文采用实证研究的方法，主要包括以下几个阶段：1) 数据集构建与准备：使用两个具有挑战性的医学数据集，包括阿尔茨海默病（AD）分类和MIMIC-CXR胸部X光片分类。2) 模型评估：对比文本、视觉和多模态输入在医学决策任务中的性能。3) 策略探索：针对MLLMs视觉理解不足的问题，探索三种解决方案：上下文学习、视觉描述+文本推理、视觉塔的少量样本微调。4) 结果分析：分析实验结果，评估不同策略的有效性，并探讨MLLMs在医学决策中的局限性。

关键创新：论文的关键创新在于揭示了当前MLLMs在医学决策中对文本信息的过度依赖，以及视觉理解的不足。通过实验证明，即使在视觉信息重要的医学图像分析任务中，文本信息仍然占据主导地位，多模态融合甚至可能降低性能。此外，论文提出的三种策略为提升MLLMs的医学决策能力提供了新的思路。

关键设计：论文的关键设计包括：1) 使用具有挑战性的医学数据集，以评估MLLMs的视觉理解能力。2) 对比不同模态输入的性能，以揭示文本信息的主导地位。3) 探索三种不同的解决方案，包括上下文学习、视觉描述+文本推理、视觉塔的少量样本微调。4) 针对视觉塔的少量样本微调，采用了分类监督的方式，以提高模型对医学图像的识别能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在阿尔茨海默病分类和MIMIC-CXR胸部X光片分类任务中，仅使用文本的推理性能优于仅使用视觉或视觉-文本的设置。多模态输入甚至可能比仅使用文本的效果更差。通过提出的三种策略，可以在一定程度上提升MLLM的医学决策能力，但仍有很大的提升空间。

🎯 应用场景

该研究成果可应用于辅助医生进行疾病诊断、病情评估和治疗方案制定。通过提升MLLM对医学图像的理解能力，可以减少误诊率，提高诊断效率，并为患者提供更精准的个性化治疗方案。未来，该研究有望推动智能医疗的发展，实现更高效、更智能的医疗服务。

📄 摘要（原文）

With the rapid progress of large language models (LLMs), advanced multimodal large language models (MLLMs) have demonstrated impressive zero-shot capabilities on vision-language tasks. In the biomedical domain, however, even state-of-the-art MLLMs struggle with basic Medical Decision Making (MDM) tasks. We investigate this limitation using two challenging datasets: (1) three-stage Alzheimer's disease (AD) classification (normal, mild cognitive impairment, dementia), where category differences are visually subtle, and (2) MIMIC-CXR chest radiograph classification with 14 non-mutually exclusive conditions. Our empirical study shows that text-only reasoning consistently outperforms vision-only or vision-text settings, with multimodal inputs often performing worse than text alone. To mitigate this, we explore three strategies: (1) in-context learning with reason-annotated exemplars, (2) vision captioning followed by text-only inference, and (3) few-shot fine-tuning of the vision tower with classification supervision. These findings reveal that current MLLMs lack grounded visual understanding and point to promising directions for improving multimodal decision making in healthcare.

Why Text Prevails: Vision May Undermine Multimodal Medical Decision Making

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理