The Illusion of Clinical Reasoning: A Benchmark Reveals the Pervasive Gap in Vision-Language Models for Clinical Competency

📄 arXiv: 2512.22275v1 📥 PDF

作者: Dingyu Wang, Zimu Yuan, Jiajun Liu, Shanggui Liu, Nan Zhou, Tianxing Xu, Di Huang, Dong Jiang

分类: cs.CV, cs.AI

发布日期: 2025-12-25


💡 一句话要点

提出B&J骨科临床推理基准,揭示视觉-语言模型在临床能力上的显著差距

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 临床推理 视觉-语言模型 多模态学习 医学图像理解 基准测试 骨科 运动医学

📋 核心要点

  1. 现有医学基准难以评估模型在真实临床场景下的多模态推理能力,无法准确反映其临床胜任力。
  2. 构建B&J基准,包含骨科和运动医学的真实病例,全面评估模型在临床推理各环节的表现。
  3. 实验表明,现有模型在多模态任务中表现不佳,尤其在医学图像理解和避免文本驱动幻觉方面存在明显缺陷。

📝 摘要(中文)

本研究旨在评估基础模型在临床实践中的推理能力,发现现有基准难以捕捉真实患者护理所需的多模态推理。为此,作者构建了Bones and Joints (B&J) 基准,包含1245个源自骨科和运动医学真实病例的问题,涵盖知识回忆、文本和图像理解、诊断生成、治疗计划和理由提供等7个任务。对11个视觉-语言模型(VLMs)和6个大型语言模型(LLMs)的评估表明,模型在结构化选择题上表现出色,但在需要多模态整合的开放式任务中性能显著下降。VLMs在医学图像理解方面存在局限性,并表现出严重的文本驱动幻觉。医学专用模型并未表现出优于通用模型的优势。结论是,当前AI模型在复杂多模态推理方面尚不具备临床能力,应仅限于辅助性的文本任务。核心临床任务的进步有待多模态整合和视觉理解方面的突破。

🔬 方法详解

问题定义:现有医学基准主要基于医学执照考试或人工设计的病例,无法全面评估模型在真实临床场景下的多模态推理能力。现有方法难以捕捉临床实践中所需的文本、图像等多模态信息融合,以及诊断、治疗等复杂推理过程。

核心思路:为了更真实地评估AI模型在临床推理方面的能力,论文构建了一个新的基准数据集,该数据集基于真实的骨科和运动医学病例,涵盖了临床推理的多个关键步骤。通过评估模型在这些步骤中的表现,可以更全面地了解模型的临床胜任力。

技术框架:B&J基准包含1245个问题,这些问题来源于真实的骨科和运动医学病例。基准测试包含7个任务,模拟了临床推理的路径,包括:1) 知识回忆;2) 文本解释;3) 图像解释;4) 诊断生成;5) 治疗计划;6) 理由提供;7) 多模态整合。研究者评估了11个视觉-语言模型(VLMs)和6个大型语言模型(LLMs)在这些任务上的表现。

关键创新:该研究的关键创新在于构建了一个更贴近真实临床场景的基准数据集,该数据集不仅包含文本信息,还包含医学图像信息,并且涵盖了临床推理的多个关键步骤。这使得研究者可以更全面地评估AI模型在临床推理方面的能力,并发现现有模型在多模态信息融合和复杂推理方面的不足。

关键设计:B&J基准中的问题设计参考了真实的临床病例,力求模拟真实的临床推理过程。每个问题都包含文本描述和医学图像,要求模型能够理解文本和图像信息,并进行诊断、治疗等推理。评估指标包括准确率、精确率、召回率等,用于衡量模型在不同任务上的表现。

📊 实验亮点

实验结果表明,现有模型在结构化选择题上表现良好(准确率超过90%),但在需要多模态整合的开放式任务中性能显著下降(准确率低于60%)。VLMs在医学图像理解方面存在明显不足,并且容易产生文本驱动的幻觉,忽略视觉证据。医学专用模型并未表现出明显优于通用模型的性能。

🎯 应用场景

该研究成果可用于指导AI模型在医疗领域的应用,帮助开发者了解现有模型的局限性,并开发更可靠、更安全的临床辅助工具。未来的研究可以基于B&J基准,探索更有效的多模态融合方法和视觉理解技术,从而提升AI模型在临床推理方面的能力,最终实现AI在临床实践中的安全部署。

📄 摘要(原文)

Background: The rapid integration of foundation models into clinical practice and public health necessitates a rigorous evaluation of their true clinical reasoning capabilities beyond narrow examination success. Current benchmarks, typically based on medical licensing exams or curated vignettes, fail to capture the integrated, multimodal reasoning essential for real-world patient care. Methods: We developed the Bones and Joints (B&J) Benchmark, a comprehensive evaluation framework comprising 1,245 questions derived from real-world patient cases in orthopedics and sports medicine. This benchmark assesses models across 7 tasks that mirror the clinical reasoning pathway, including knowledge recall, text and image interpretation, diagnosis generation, treatment planning, and rationale provision. We evaluated eleven vision-language models (VLMs) and six large language models (LLMs), comparing their performance against expert-derived ground truth. Results: Our results demonstrate a pronounced performance gap between task types. While state-of-the-art models achieved high accuracy, exceeding 90%, on structured multiple-choice questions, their performance markedly declined on open-ended tasks requiring multimodal integration, with accuracy scarcely reaching 60%. VLMs demonstrated substantial limitations in interpreting medical images and frequently exhibited severe text-driven hallucinations, often ignoring contradictory visual evidence. Notably, models specifically fine-tuned for medical applications showed no consistent advantage over general-purpose counterparts. Conclusions: Current artificial intelligence models are not yet clinically competent for complex, multimodal reasoning. Their safe deployment should currently be limited to supportive, text-based roles. Future advancement in core clinical tasks awaits fundamental breakthroughs in multimodal integration and visual understanding.