Facts Fade Fast: Evaluating Memorization of Outdated Medical Knowledge in Large Language Models
作者: Juraj Vladika, Mahdi Dhaini, Florian Matthes
分类: cs.CL, cs.AI
发布日期: 2025-09-04
备注: Accepted to Findings of EMNLP 2025
💡 一句话要点
评估大型语言模型对过时医学知识的记忆能力,揭示其潜在风险
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 医学知识 知识时效性 问答系统 数据集 医疗AI 临床推理
📋 核心要点
- 大型语言模型在医疗领域的应用面临挑战,它们可能记忆并输出过时的医学知识,导致潜在的医疗风险。
- 该研究构建了MedRevQA和MedChangeQA两个数据集,用于评估LLM对医学知识时效性的掌握程度。
- 实验结果表明,现有LLM普遍存在依赖过时医学知识的问题,需要进一步研究缓解策略。
📝 摘要(中文)
大型语言模型(LLM)在医疗保健领域具有巨大潜力,可以辅助医学研究人员和医生。然而,LLM依赖于静态训练数据,这在医学建议随新研究和发展而演变时,构成重大风险。当LLM记忆过时的医学知识时,可能提供有害建议或在临床推理任务中失败。为了研究这个问题,我们引入了两个新的问答(QA)数据集,它们源自系统性综述:MedRevQA(包含16,501个QA对,涵盖一般生物医学知识)和MedChangeQA(包含512个QA对的子集,其中医学共识随时间发生了变化)。我们对八个著名LLM在这些数据集上的评估表明,所有模型都一致依赖于过时的知识。此外,我们分析了过时的预训练数据和训练策略的影响,以解释这种现象,并提出了未来的缓解方向,为开发更具时效性和可靠性的医学AI系统奠定了基础。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在医疗领域应用时,由于依赖静态训练数据而记忆并输出过时医学知识的问题。现有方法无法有效评估和解决LLM对医学知识时效性的掌握程度,可能导致LLM提供错误的医疗建议,对患者造成潜在危害。
核心思路:论文的核心思路是通过构建专门的问答数据集,评估LLM在医学知识更新迭代方面的表现。通过分析LLM在这些数据集上的表现,揭示其对过时医学知识的记忆程度,并探讨导致这一现象的原因。
技术框架:论文主要包含以下几个阶段:1)构建MedRevQA和MedChangeQA两个数据集,其中MedRevQA包含一般生物医学知识,MedChangeQA包含医学共识随时间发生变化的知识。2)选择八个具有代表性的LLM进行评估。3)分析LLM在两个数据集上的表现,重点关注其对MedChangeQA中过时知识的记忆情况。4)分析过时预训练数据和训练策略对LLM表现的影响。
关键创新:论文的关键创新在于构建了MedChangeQA数据集,该数据集专门用于评估LLM对医学知识时效性的掌握程度。与现有数据集相比,MedChangeQA关注医学共识随时间的变化,能够更准确地评估LLM是否能够区分新旧知识。
关键设计:MedChangeQA数据集的设计关键在于选择医学共识发生变化的QA对。这些QA对基于系统性综述,确保了医学知识的权威性和准确性。论文还分析了不同训练策略(如持续学习)对LLM表现的影响,为未来的研究提供了方向。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所有被评估的LLM都存在依赖过时医学知识的问题。在MedChangeQA数据集上,LLM的准确率显著低于MedRevQA数据集,表明其难以区分新旧医学知识。分析表明,过时的预训练数据和训练策略是导致这一现象的重要原因。这些发现为未来的研究提供了重要的启示。
🎯 应用场景
该研究成果可应用于开发更可靠的医疗AI系统,辅助医生进行诊断和治疗决策。通过提高LLM对医学知识时效性的掌握程度,可以减少其提供错误医疗建议的风险,提升医疗服务的质量和安全性。未来的研究可以探索如何利用持续学习等技术,使LLM能够及时更新医学知识,适应医学领域的快速发展。
📄 摘要(原文)
The growing capabilities of Large Language Models (LLMs) show significant potential to enhance healthcare by assisting medical researchers and physicians. However, their reliance on static training data is a major risk when medical recommendations evolve with new research and developments. When LLMs memorize outdated medical knowledge, they can provide harmful advice or fail at clinical reasoning tasks. To investigate this problem, we introduce two novel question-answering (QA) datasets derived from systematic reviews: MedRevQA (16,501 QA pairs covering general biomedical knowledge) and MedChangeQA (a subset of 512 QA pairs where medical consensus has changed over time). Our evaluation of eight prominent LLMs on the datasets reveals consistent reliance on outdated knowledge across all models. We additionally analyze the influence of obsolete pre-training data and training strategies to explain this phenomenon and propose future directions for mitigation, laying the groundwork for developing more current and reliable medical AI systems.