Fact or Guesswork? Evaluating Large Language Models' Medical Knowledge with Structured One-Hop Judgments

作者: Jiaxi Li, Yiwei Wang, Kai Zhang, Yujun Cai, Bryan Hooi, Nanyun Peng, Kai-Wei Chang, Jin Lu

分类: cs.CL, cs.LG

发布日期: 2025-02-20 (更新: 2025-08-19)

备注: 15 pages, 11 figures

💡 一句话要点

提出MKJ数据集，评估大语言模型在医学知识领域的准确性和校准性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 医学知识 大型语言模型 知识评估 UMLS 事实性 检索增强生成 校准性

📋 核心要点

现有医学问答benchmark侧重复杂推理，难以评估LLM对医学事实知识的直接回忆能力。
提出MKJ数据集，通过二元分类评估LLM对单跳医学事实的判断能力，直接衡量知识保留。
实验表明LLM在医学事实回忆方面存在困难，尤其在不常见疾病上，且校准性较差，检索增强生成可缓解。

📝 摘要（中文）

大型语言模型（LLM）已被广泛应用于各种下游任务领域。然而，它们直接回忆和应用医学事实知识的能力仍未得到充分探索。现有的大多数医学问答基准侧重于复杂的推理或多跳推断，难以将LLM固有的医学知识与其推理能力区分开来。鉴于医学应用的高风险性，错误信息可能导致严重后果，因此评估LLM在医学知识保留方面的真实性至关重要。为了解决这一挑战，我们引入了医学知识判断数据集（MKJ），该数据集源自统一医学语言系统（UMLS），这是一个综合性的标准化生物医学词汇和知识图谱库。通过二元分类框架，MKJ通过让LLM评估简洁的单跳语句的有效性来评估LLM对基本医学事实的掌握程度，从而直接衡量它们的知识保留能力。我们的实验表明，LLM难以准确回忆医学事实，其性能在不同语义类型之间差异很大，并且在不常见的医学疾病方面表现出明显的弱点。此外，LLM表现出较差的校准性，通常对不正确的答案过于自信。为了缓解这些问题，我们探索了检索增强生成，证明了其在提高事实准确性和减少医学决策不确定性方面的有效性。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在医学领域的事实性知识评估问题。现有医学问答基准测试通常涉及复杂的多跳推理，难以区分LLM的推理能力和其固有的医学知识。此外，LLM在医学领域的错误信息可能导致严重后果，因此准确评估其医学知识的真实性至关重要。

核心思路：论文的核心思路是通过构建一个专门的医学知识判断数据集（MKJ），采用二元分类任务来直接评估LLM对基本医学事实的掌握程度。通过单跳语句的判断，可以有效隔离LLM的推理能力，专注于评估其知识回忆能力。

技术框架：MKJ数据集构建：从UMLS（Unified Medical Language System）中提取医学知识，构建单跳语句，并进行正负样本标注。二元分类任务：LLM接收单跳语句作为输入，输出判断结果（真/假）。评估指标：准确率、校准性等。检索增强生成：利用外部知识库，提升LLM的事实准确性。

关键创新：MKJ数据集的构建，专注于评估LLM对医学事实的直接回忆能力，避免了复杂推理的干扰。通过单跳语句的判断，可以更清晰地了解LLM的知识盲点和错误倾向。此外，论文还探索了检索增强生成在提高医学知识准确性方面的潜力。

关键设计：MKJ数据集的构建细节：从UMLS中选择合适的语义类型和关系类型，确保数据集的覆盖度和质量。负样本的生成策略：采用随机替换、关系反转等方法生成负样本，避免简单的模式识别。评估指标的选择：除了准确率，还关注LLM的校准性，即其预测概率与实际准确率的一致性。检索增强生成的具体实现：选择合适的知识库和检索算法，并设计有效的融合机制。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LLM在MKJ数据集上的表现不佳，尤其是在不常见的医学疾病方面。LLM的校准性较差，经常对错误的答案过于自信。通过引入检索增强生成，LLM的事实准确性得到了显著提升，不确定性也得到了降低。例如，检索增强生成可以将准确率从X%提升到Y%（具体数值请参考论文）。

🎯 应用场景

该研究成果可应用于医学领域的智能问答系统、辅助诊断工具和医学知识库构建。通过评估和提高LLM的医学知识准确性，可以减少错误信息带来的风险，提升医疗服务的质量和效率。未来，该研究可进一步扩展到其他专业领域，为构建可信赖的AI系统提供参考。

📄 摘要（原文）

Large language models (LLMs) have been widely adopted in various downstream task domains. However, their abilities to directly recall and apply factual medical knowledge remains under-explored. Most existing medical QA benchmarks assess complex reasoning or multi-hop inference, making it difficult to isolate LLMs' inherent medical knowledge from their reasoning capabilities. Given the high-stakes nature of medical applications, where incorrect information can have critical consequences, it is essential to evaluate the factuality of LLMs to retain medical knowledge. To address this challenge, we introduce the Medical Knowledge Judgment Dataset (MKJ), a dataset derived from the Unified Medical Language System (UMLS), a comprehensive repository of standardized biomedical vocabularies and knowledge graphs. Through a binary classification framework, MKJ evaluates LLMs' grasp of fundamental medical facts by having them assess the validity of concise, one-hop statements, enabling direct measurement of their knowledge retention capabilities. Our experiments reveal that LLMs have difficulty accurately recalling medical facts, with performances varying substantially across semantic types and showing notable weakness in uncommon medical conditions. Furthermore, LLMs show poor calibration, often being overconfident in incorrect answers. To mitigate these issues, we explore retrieval-augmented generation, demonstrating its effectiveness in improving factual accuracy and reducing uncertainty in medical decision-making.

Fact or Guesswork? Evaluating Large Language Models' Medical Knowledge with Structured One-Hop Judgments

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理