Limitations of Large Language Models in Clinical Problem-Solving Arising from Inflexible Reasoning

📄 arXiv: 2502.04381v1 📥 PDF

作者: Jonathan Kim, Anna Podlasek, Kie Shidara, Feng Liu, Ahmed Alaa, Danilo Bernardo

分类: cs.CL, cs.AI

发布日期: 2025-02-05

备注: 14 pages, 6 figures

期刊: Sci Rep 15, 39426 (2025)

DOI: 10.1038/s41598-025-22940-0


💡 一句话要点

M-ARC揭示大语言模型在临床问题解决中因思维定势导致的推理局限性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 临床推理 思维定势 医学问答 不确定性估计

📋 核心要点

  1. 现有医学问答基准测试无法充分评估LLM在复杂、开放式临床场景中的推理能力。
  2. 提出M-ARC语料库,通过定势效应诱导LLM产生思维固化,从而暴露其推理缺陷。
  3. 实验表明,即使是最先进的LLM在M-ARC上的表现也远低于医生,且过度自信。

📝 摘要(中文)

大型语言模型(LLM)在医学问答(QA)基准测试中已达到人类水平的准确率。然而,最近的研究表明,它们在处理开放式临床场景时存在局限性,引发了人们对LLM推理在各种真实医学任务中的鲁棒性和泛化性的担忧。为了探究LLM在临床问题解决中潜在的失效模式,我们提出了医学抽象和推理语料库(M-ARC)。M-ARC通过旨在利用定势效应(Einstellung effect)的场景来评估临床推理——定势效应是指由先前的经验引起的思维固化,它针对的是LLM的归纳偏置,即倾向于从训练数据中进行不灵活的模式匹配,而不是进行灵活的推理。我们发现,包括当前最先进的o1和Gemini模型在内的LLM在M-ARC上的表现远不如医生,常常表现出缺乏常识性医学推理和产生幻觉的倾向。此外,不确定性估计分析表明,尽管LLM的准确率有限,但它们对自己的答案表现出过度自信。M-ARC揭示的LLM医学推理中的失效模式强调了在临床环境中部署这些模型时需要谨慎。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在临床问题解决中存在的推理局限性问题。现有方法在评估LLM的医学推理能力时,往往侧重于简单的问答任务,而忽略了真实临床场景的复杂性和开放性。LLM容易受到训练数据的影响,产生思维定势,无法进行灵活的推理,导致在实际应用中出现错误或不准确的判断。

核心思路:论文的核心思路是利用定势效应(Einstellung effect)来诱导LLM产生思维固化,从而暴露其推理缺陷。定势效应是指由于先前的经验而产生的思维定式,会阻碍人们找到新的解决方案。通过设计特定的临床场景,使LLM倾向于使用先前学习到的模式进行推理,从而更容易犯错。

技术框架:论文构建了一个新的医学抽象和推理语料库(M-ARC),用于评估LLM的临床推理能力。M-ARC包含一系列临床场景,这些场景经过精心设计,旨在利用定势效应。研究人员使用M-ARC对多个LLM(包括最先进的模型)进行了评估,并将其性能与医生的表现进行了比较。此外,还进行了不确定性估计分析,以评估LLM对其答案的置信度。

关键创新:论文的关键创新在于提出了M-ARC语料库,该语料库能够有效地评估LLM在临床问题解决中的推理能力,并揭示其存在的思维定势问题。与现有的医学问答基准测试相比,M-ARC更注重评估LLM在复杂、开放式场景下的推理能力,能够更全面地反映LLM在实际应用中的表现。

关键设计:M-ARC语料库中的临床场景设计需要仔细考虑,以确保能够有效地诱导定势效应。场景需要包含一些线索,使LLM倾向于使用先前学习到的模式进行推理,但同时也需要包含一些关键信息,提示LLM应该采用不同的解决方案。此外,还需要对LLM的答案进行仔细评估,以确定其是否受到了定势效应的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,包括当前最先进的o1和Gemini模型在内的LLM在M-ARC上的表现远不如医生。LLM常常表现出缺乏常识性医学推理和产生幻觉的倾向。此外,不确定性估计分析表明,尽管LLM的准确率有限,但它们对自己的答案表现出过度自信。

🎯 应用场景

该研究成果可用于改进LLM在医疗领域的应用,例如辅助诊断、治疗方案推荐等。通过识别和解决LLM的推理局限性,可以提高其在临床决策中的可靠性和安全性。此外,M-ARC语料库可以作为评估和比较不同LLM医学推理能力的基准。

📄 摘要(原文)

Large Language Models (LLMs) have attained human-level accuracy on medical question-answer (QA) benchmarks. However, their limitations in navigating open-ended clinical scenarios have recently been shown, raising concerns about the robustness and generalizability of LLM reasoning across diverse, real-world medical tasks. To probe potential LLM failure modes in clinical problem-solving, we present the medical abstraction and reasoning corpus (M-ARC). M-ARC assesses clinical reasoning through scenarios designed to exploit the Einstellung effect -- the fixation of thought arising from prior experience, targeting LLM inductive biases toward inflexible pattern matching from their training data rather than engaging in flexible reasoning. We find that LLMs, including current state-of-the-art o1 and Gemini models, perform poorly compared to physicians on M-ARC, often demonstrating lack of commonsense medical reasoning and a propensity to hallucinate. In addition, uncertainty estimation analyses indicate that LLMs exhibit overconfidence in their answers, despite their limited accuracy. The failure modes revealed by M-ARC in LLM medical reasoning underscore the need to exercise caution when deploying these models in clinical settings.