The Knowledge-Reasoning Dissociation: Fundamental Limitations of LLMs in Clinical Natural Language Inference

📄 arXiv: 2508.10777v1 📥 PDF

作者: Maël Jullien, Marco Valentino, André Freitas

分类: cs.AI

发布日期: 2025-08-14

备注: 19 pages


💡 一句话要点

揭示LLM在临床自然语言推理中知识与推理的解耦局限性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自然语言推理 大型语言模型 临床试验 知识推理解耦 基准测试

📋 核心要点

  1. 现有大型语言模型在临床自然语言推理中,难以可靠地运用其所掌握的知识进行复杂推理。
  2. 论文提出一种新的基准测试方法,通过GKMRV探针将知识获取与推理能力解耦,从而诊断LLM的不足。
  3. 实验表明,LLM在知识验证方面表现良好,但在推理任务中表现不佳,揭示了其结构和表示上的局限性。

📝 摘要(中文)

大型语言模型通常被认为可以通过扩展数据和参数来获得越来越结构化、可泛化的内部表示。本文通过引入一个临床试验自然语言推理基准来研究这一假设,该基准包含四个推理家族:因果归因、组合接地、认知验证和风险状态抽象。每个项目都与一个有针对性的基础知识和元级别推理验证(GKMRV)探针配对,从而使我们能够将事实访问失败与推理失败区分开来。我们评估了六个当代LLM在直接和思维链提示下的表现。模型在GKMRV上取得了接近上限的准确率(平均准确率0.918),但在主要的推理任务上表现不佳(平均准确率0.25)。尽管准确率很低,但输出推论在样本中高度一致(平均0.87),表明系统地应用了潜在的启发式方法和捷径。这些结果揭示了根本的结构和表示限制:当前的LLM通常拥有相关的临床知识,但缺乏可靠地部署它所需的结构化、可组合的内部表示(例如,整合约束、权衡证据或模拟反事实)。使用GKMRV将知识与推理分离,使这种解耦变得明确和可衡量,为探测LLM在高风险领域的可靠性提供了一个有效的框架。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)在临床自然语言推理任务中,虽然拥有一定的医学知识,但无法有效地利用这些知识进行复杂的推理,例如因果归因、风险评估等。现有的评估方法难以区分LLM是因为缺乏相关知识,还是因为缺乏推理能力而导致失败。因此,需要一种新的评估方法来诊断LLM在知识和推理方面的不足。

核心思路:论文的核心思路是将知识获取与推理能力解耦。具体来说,就是设计一种新的评估框架,该框架包含两部分:一是主要的推理任务,二是用于验证LLM是否具备相关知识的探针(GKMRV)。通过比较LLM在推理任务和知识验证任务上的表现,可以判断LLM的失败是由于缺乏知识,还是缺乏推理能力。

技术框架:论文提出的评估框架包含以下几个主要组成部分: 1. 临床试验自然语言推理基准:包含四个推理家族,分别是因果归因、组合接地、认知验证和风险状态抽象。 2. 基础知识和元级别推理验证(GKMRV)探针:用于验证LLM是否具备完成推理任务所需的知识。 3. 评估指标:用于衡量LLM在推理任务和知识验证任务上的表现。

关键创新:论文最重要的技术创新点在于提出了GKMRV探针,该探针能够有效地将知识获取与推理能力解耦。通过GKMRV探针,可以明确地诊断LLM在知识和推理方面的不足,从而为改进LLM的推理能力提供指导。与现有方法相比,该方法能够更准确地评估LLM在复杂推理任务中的表现。

关键设计:GKMRV探针的设计需要保证其能够准确地验证LLM是否具备完成推理任务所需的知识。具体来说,GKMRV探针需要包含与推理任务相关的关键事实和规则。此外,GKMRV探针还需要能够评估LLM的元级别推理能力,例如判断信息来源的可靠性等。论文中没有明确说明损失函数和网络结构,因为该论文主要关注的是评估方法,而不是模型的训练。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,LLM在GKMRV探针上取得了接近上限的准确率(平均准确率0.918),但在主要的推理任务上表现不佳(平均准确率0.25)。这表明LLM虽然拥有相关的临床知识,但缺乏可靠地部署它所需的结构化、可组合的内部表示。此外,实验还发现,LLM的输出推论在样本中高度一致(平均0.87),表明LLM系统地应用了潜在的启发式方法和捷径。

🎯 应用场景

该研究成果可应用于医疗健康领域,例如辅助临床决策、药物研发等。通过评估LLM在临床自然语言推理方面的能力,可以帮助医生更好地利用LLM进行疾病诊断和治疗方案制定。此外,该研究还可以促进LLM在其他高风险领域的应用,例如金融、法律等。

📄 摘要(原文)

Large language models are often assumed to acquire increasingly structured, generalizable internal representations simply by scaling data and parameters. We interrogate this assumption by introducing a Clinical Trial Natural Language Inference benchmark comprising four reasoning families, Causal Attribution, Compositional Grounding, Epistemic Verification, and Risk State Abstraction. Each item is paired with a targeted Ground Knowledge and Meta-Level Reasoning Verification (GKMRV) probe, allowing us to dissociate failures of factual access from failures of inference. We evaluate six contemporary LLMs under both direct and chain of thought prompting. Models achieve near-ceiling GKMRV accuracy (mean accuracy 0.918) yet perform poorly on the main reasoning tasks (mean accuracy 0.25). Despite low accuracy, output inferences are highly consistent across samples (mean 0.87), indicating a systematic application of underlying heuristics and shortcuts. These results reveal fundamental structural and representational limitations: current LLMs often possess the relevant clinical knowledge but lack the structured, composable internal representations needed to deploy it reliably (e.g., integrating constraints, weighing evidence, or simulating counterfactuals). Decoupling knowledge from reasoning with GKMRV makes this dissociation explicit and measurable, providing an effective framework for probing the reliability of LLMs in high-stakes domains.