Worse than Random? An Embarrassingly Simple Probing Evaluation of Large Multimodal Models in Medical VQA

📄 arXiv: 2405.20421v5 📥 PDF

作者: Qianqi Yan, Xuehai He, Xiang Yue, Xin Eric Wang

分类: cs.AI

发布日期: 2024-05-30 (更新: 2025-06-10)


💡 一句话要点

揭示医学VQA中大型多模态模型在诊断问题上表现甚至不如随机猜测,并提出ProbMed基准。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学视觉问答 多模态模型 探测评估 程序化诊断 医学诊断 幻觉问题 ProbMed数据集

📋 核心要点

  1. 现有医学VQA基准测试无法有效评估大型多模态模型在细粒度诊断上的可靠性,模型可能存在幻觉。
  2. 提出ProbMed数据集,包含探测评估和程序化诊断,旨在更严格地评估LMM在医学图像诊断中的性能。
  3. 实验表明,即使是GPT-4o等先进模型在特定诊断问题上表现也远低于预期,凸显了当前模型的局限性。

📝 摘要(中文)

大型多模态模型(LMMs)在医学视觉问答(Med-VQA)领域取得了显著进展,在现有基准测试中实现了高精度。然而,它们在鲁棒性评估下的可靠性值得怀疑。本研究表明,在简单的探测评估中,最先进的模型在医学诊断问题上的表现甚至不如随机猜测。为了解决这个关键的评估问题,我们引入了医学诊断探测评估(ProbMed)数据集,通过探测评估和程序化诊断来严格评估LMM在医学成像中的性能。特别是,探测评估的特点是将原始问题与带有幻觉属性的否定问题配对,而程序化诊断需要对每个图像的各种诊断维度进行推理,包括模态识别、器官识别、临床发现、异常情况和位置定位。我们的评估表明,GPT-4o、GPT-4V和Gemini Pro等顶级模型在专门的诊断问题上的表现甚至不如随机猜测,表明在处理细粒度的医学询问方面存在重大局限性。此外,像LLaVA-Med这样的模型甚至在更一般的问题上都表现不佳,而CheXagent的结果表明了专业知识在同一器官的不同模态之间的可转移性,表明专业的领域知识对于提高性能仍然至关重要。这项研究强调了迫切需要更强大的评估,以确保LMM在医学诊断等关键领域的可靠性,并且当前的LMM还远未适用于这些领域。

🔬 方法详解

问题定义:论文旨在解决现有医学VQA评估基准的不足,这些基准无法充分测试大型多模态模型在细粒度医学诊断任务中的可靠性。现有方法容易受到幻觉信息的影响,导致模型在看似正确的情况下给出错误的诊断。

核心思路:论文的核心思路是通过设计一种更严格的评估方法,即探测评估和程序化诊断,来揭示大型多模态模型在医学诊断任务中的真实能力。探测评估通过引入否定问题来检测模型是否依赖于幻觉属性,而程序化诊断则要求模型对图像进行多维度的推理。

技术框架:ProbMed数据集包含两种评估方式:探测评估和程序化诊断。探测评估涉及将原始问题与包含幻觉属性的否定问题配对,观察模型在两种情况下的表现差异。程序化诊断则要求模型对医学图像进行多方面的分析,包括模态识别、器官识别、临床发现、异常情况和位置定位。模型需要对这些维度进行推理,以得出最终的诊断结果。

关键创新:ProbMed数据集的关键创新在于其评估方式的严谨性。通过探测评估,可以有效检测模型是否依赖于幻觉信息,从而更准确地评估模型的真实能力。程序化诊断则模拟了医生进行诊断的流程,要求模型进行多维度的推理,从而更全面地评估模型的诊断能力。

关键设计:ProbMed数据集的设计考虑了医学诊断的复杂性,包含了各种医学图像和问题类型。探测评估中的否定问题经过精心设计,以确保它们能够有效地检测模型是否依赖于幻觉属性。程序化诊断中的各个维度也经过仔细选择,以确保它们能够全面地评估模型的诊断能力。具体参数设置和损失函数等技术细节未在摘要中提及,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GPT-4o、GPT-4V和Gemini Pro等先进模型在ProbMed数据集的特定诊断问题上表现甚至不如随机猜测,这突显了当前LMM在处理细粒度医学诊断任务方面的局限性。LLaVA-Med等模型在更一般的问题上也表现不佳,表明其医学知识的不足。CheXagent的结果则表明,专业领域知识对于提高性能至关重要。

🎯 应用场景

该研究成果可应用于开发更可靠的医学VQA系统,辅助医生进行诊断,提高诊断效率和准确性。同时,该研究也为评估和改进大型多模态模型在医疗领域的应用提供了新的思路和方法,有助于推动医疗人工智能的发展。

📄 摘要(原文)

Large Multimodal Models (LMMs) have shown remarkable progress in medical Visual Question Answering (Med-VQA), achieving high accuracy on existing benchmarks. However, their reliability under robust evaluation is questionable. This study reveals that when subjected to simple probing evaluation, state-of-the-art models perform worse than random guessing on medical diagnosis questions. To address this critical evaluation problem, we introduce the Probing Evaluation for Medical Diagnosis (ProbMed) dataset to rigorously assess LMM performance in medical imaging through probing evaluation and procedural diagnosis. Particularly, probing evaluation features pairing original questions with negation questions with hallucinated attributes, while procedural diagnosis requires reasoning across various diagnostic dimensions for each image, including modality recognition, organ identification, clinical findings, abnormalities, and positional grounding. Our evaluation reveals that top-performing models like GPT-4o, GPT-4V, and Gemini Pro perform worse than random guessing on specialized diagnostic questions, indicating significant limitations in handling fine-grained medical inquiries. Besides, models like LLaVA-Med struggle even with more general questions, and results from CheXagent demonstrate the transferability of expertise across different modalities of the same organ, showing that specialized domain knowledge is still crucial for improving performance. This study underscores the urgent need for more robust evaluation to ensure the reliability of LMMs in critical fields like medical diagnosis, and current LMMs are still far from applicable to those fields.