Performance of large language models in numerical vs. semantic medical knowledge: Benchmarking on evidence-based Q&As
作者: Eden Avnat, Michal Levy, Daniel Herstain, Elia Yanko, Daniel Ben Joya, Michal Tzuchman Katz, Dafna Eshel, Sahar Laros, Yael Dagan, Shahar Barami, Joseph Mermelstein, Shahar Ovadia, Noam Shomron, Varda Shalev, Raja-Elie E. Abdulnour
分类: cs.CL
发布日期: 2024-06-06 (更新: 2024-07-24)
💡 一句话要点
EBMQA基准测试揭示大语言模型在数值医学知识处理上弱于语义知识,且逊于人类专家
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 医学知识图谱 循证医学 数值推理 语义理解
📋 核心要点
- 临床决策依赖于语义和数值医学知识,现有LLM在处理数值信息时存在tokenization限制。
- 论文构建EBMQA数据集,包含数值和语义两类问题,用于评估LLM的医学知识处理能力。
- 实验表明,LLM在语义问题上表现更好,但数值问题上仍不如人类专家,提示需谨慎使用LLM的医疗建议。
📝 摘要(中文)
临床问题解决需要处理语义医学知识(如疾病脚本)和数值医学知识(如诊断测试)。大型语言模型(LLMs)在许多基于语言的临床实践中显示出前景,但其生成基于非语言证据的答案的能力受到tokenization的限制。因此,我们评估了LLMs在两种问题类型上的表现:数值型(关联发现)和语义型(区分实体),同时检查了LLMs在医学方面的差异,并将其性能与人类进行比较。为了生成基于循证医学(EBM)的直接多项选择题和答案(QAs),我们使用了一个全面的医学知识图谱(包含来自超过50,000篇同行评审文章的数据),并创建了“EBMQA”。EBMQA包含105,000个QA,标记有医学和非医学主题,并分为数值或语义问题。我们使用超过24,500个QA在两个最先进的LLMs上对该数据集进行了基准测试:Chat-GPT4和Claude3-Opus。我们评估了LLMs在语义和数值问题类型以及根据子标记主题的准确性。为了验证,六位医学专家测试了100个数值EBMQA问题。我们发现,LLMs在语义QA方面比数值QA更出色,Claude3在数值QA方面超过了GPT4。然而,LLMs在不同的医学方面表现出内部和外部差距,并且仍然不如人类。因此,应谨慎对待他们的医疗建议。
🔬 方法详解
问题定义:论文旨在评估大型语言模型(LLMs)在处理医学知识方面的能力,特别是区分其在数值型和语义型问题上的表现差异。现有LLMs在处理需要精确数值计算和推理的医学问题时,由于tokenization的限制,往往表现不佳,无法满足临床决策的准确性要求。
核心思路:论文的核心思路是通过构建一个包含大量数值型和语义型医学问答对(EBMQA)的数据集,对LLMs进行基准测试。通过对比LLMs在不同类型问题上的表现,以及与人类专家的对比,揭示LLMs在医学知识处理方面的优势和不足。这种方法能够更客观地评估LLMs在实际临床应用中的可靠性。
技术框架:整体框架包括以下几个主要步骤:1) 构建EBMQA数据集:基于包含超过50,000篇同行评审文章的医学知识图谱,生成105,000个医学问答对,并将其分为数值型和语义型两类,同时标注医学和非医学主题。2) 选择LLMs进行基准测试:选择Chat-GPT4和Claude3-Opus两个最先进的LLMs。3) 评估LLMs的准确性:在EBMQA数据集上评估LLMs在语义和数值问题类型以及根据子标记主题的准确性。4) 人工验证:邀请六位医学专家测试100个数值EBMQA问题,作为性能对比的基准。
关键创新:论文的关键创新在于构建了EBMQA数据集,该数据集专门用于评估LLMs在医学领域的数值推理能力。与以往主要关注语义理解的医学数据集不同,EBMQA包含了大量需要精确数值计算和推理的问题,能够更全面地评估LLMs在临床决策中的应用潜力。此外,通过与人类专家的对比,更客观地评估了LLMs的性能。
关键设计:EBMQA数据集的设计考虑了以下关键因素:1) 问题类型:分为数值型和语义型,以区分LLMs在不同类型知识处理上的能力。2) 主题标注:标注医学和非医学主题,以便分析LLMs在不同医学领域的表现。3) 多项选择题形式:采用多项选择题形式,便于自动化评估LLMs的准确性。4) 数据来源:基于包含超过50,000篇同行评审文章的医学知识图谱,确保数据的可靠性和权威性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLMs在语义QA方面表现优于数值QA,Claude3在数值QA上优于GPT4。然而,所有LLMs在数值问题上的表现均不如人类专家。例如,医学专家在数值EBMQA问题上的准确率显著高于LLMs,表明LLMs在处理需要精确数值计算和推理的医学问题时仍存在局限性。
🎯 应用场景
该研究成果可应用于评估和改进LLM在医疗领域的应用,例如辅助诊断、临床决策支持和医学知识问答系统。通过EBMQA数据集,可以更准确地评估LLM在处理数值医学知识方面的能力,从而提高医疗AI系统的可靠性和安全性。未来,可以利用该数据集开发更强大的医疗AI模型,为医生提供更有效的辅助工具。
📄 摘要(原文)
Clinical problem-solving requires processing of semantic medical knowledge such as illness scripts and numerical medical knowledge of diagnostic tests for evidence-based decision-making. As large language models (LLMs) show promising results in many aspects of language-based clinical practice, their ability to generate non-language evidence-based answers to clinical questions is inherently limited by tokenization. Therefore, we evaluated LLMs' performance on two question types: numeric (correlating findings) and semantic (differentiating entities) while examining differences within and between LLMs in medical aspects and comparing their performance to humans. To generate straightforward multi-choice questions and answers (QAs) based on evidence-based medicine (EBM), we used a comprehensive medical knowledge graph (encompassed data from more than 50,00 peer-reviewed articles) and created the "EBMQA". EBMQA contains 105,000 QAs labeled with medical and non-medical topics and classified into numerical or semantic questions. We benchmarked this dataset using more than 24,500 QAs on two state-of-the-art LLMs: Chat-GPT4 and Claude3-Opus. We evaluated the LLMs accuracy on semantic and numerical question types and according to sub-labeled topics. For validation, six medical experts were tested on 100 numerical EBMQA questions. We found that both LLMs excelled more in semantic than numerical QAs, with Claude3 surpassing GPT4 in numerical QAs. However, both LLMs showed inter and intra gaps in different medical aspects and remained inferior to humans. Thus, their medical advice should be addressed carefully.