LLMD: A Large Language Model for Interpreting Longitudinal Medical Records
作者: Robert Porter, Adam Diehl, Benjamin Pastel, J. Henry Hinnefeld, Lawson Nerenberg, Pye Maung, Sebastien Kerbrat, Gillian Hanson, Troy Astorino, Stephen J. Tarsa
分类: cs.CL, cs.AI
发布日期: 2024-10-11
💡 一句话要点
LLMD:用于解读纵向医疗记录的大语言模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 医疗记录分析 大语言模型 纵向数据 医学知识 指令微调
📋 核心要点
- 现有医学大语言模型在处理真实患者数据时,难以有效整合患者跨时间、跨机构的纵向医疗记录,导致分析结果不够准确。
- LLMD通过在大规模纵向医疗记录上进行预训练和指令微调,学习患者病史中的细微联系,从而更准确地分析患者健康状况。
- 实验结果表明,LLMD在医学知识基准测试和生产任务中均优于其他模型,包括更强大的通用模型和领域特定模型,展现了其优越性。
📝 摘要(中文)
我们介绍了LLMD,一个旨在基于患者医疗记录分析其病史的大语言模型。除了领域知识外,LLMD还在一个庞大的语料库上进行训练,该语料库包含随时间推移和跨机构收集的记录,以及在这些记录之间建立细微联系的任务和标签。这种方法对于准确了解患者健康状况至关重要,并且与仅在知识、未标记记录、结构化EHR数据或来自单个医疗系统的记录上训练的模型相比,具有独特的优势。
LLMD的训练方法包括在一个基础模型上,同时预训练领域知识和数百万条记录的内容。这些记录跨越平均10年的护理时间,以及每个患者多达140个护理地点。然后,LLMD在结构化和抽象任务上进行指令微调。前者共同识别和规范化文档元数据、出处信息、临床命名实体和本体映射,而后者将这些信息整合到更高级别的表示中,例如患者持续用药的时间段。LLMD部署在一个分层验证系统中,该系统包括持续的随机审计和专家审查,例如基于不确定性、疾病特定规则或用例。
LLMD在更强大的通用模型和领域特定模型上都表现出很大的优势。在医学知识基准测试中,LLMD-8B在PubMedQA文本响应方面实现了最先进的准确性,优于规模大几个数量级的模型。在生产任务中,我们表明LLMD显著优于所有其他评估模型,并且在替代方案中,像GPT-4o这样的大型通用LLM比强调医学知识的模型更准确。我们发现有力的证据表明,在分析真实世界的患者数据时,当今医学基准测试的准确性并不是最重要的因素,这一见解对未来的医学LLM具有重要意义。
🔬 方法详解
问题定义:论文旨在解决现有医学大语言模型在分析患者医疗记录时,无法有效利用纵向医疗记录的问题。现有方法通常只关注知识、未标记记录、结构化EHR数据或来自单个医疗系统的记录,忽略了患者病史中跨时间、跨机构的复杂关联,导致分析结果不够准确。
核心思路:论文的核心思路是构建一个专门针对纵向医疗记录进行训练的大语言模型LLMD。通过在大规模的纵向医疗记录上进行预训练和指令微调,LLMD能够学习患者病史中的细微联系,从而更准确地分析患者的健康状况。这种方法强调了利用真实世界医疗数据的价值,而非仅仅依赖于医学知识或通用语言模型。
技术框架:LLMD的训练分为两个主要阶段:预训练和指令微调。在预训练阶段,一个基础模型首先在领域知识和数百万条医疗记录的内容上进行训练。这些记录涵盖了患者平均10年的护理历史,以及多达140个护理地点。在指令微调阶段,LLMD被训练执行结构化和抽象任务。结构化任务涉及识别和规范化文档元数据、出处信息、临床命名实体和本体映射。抽象任务则将这些信息整合到更高级别的表示中,例如患者持续用药的时间段。LLMD的部署还包括一个分层验证系统,通过随机审计和专家审查来确保模型的准确性和可靠性。
关键创新:LLMD的关键创新在于其对纵向医疗记录的深度利用。与以往的模型相比,LLMD不仅关注医学知识,更侧重于学习患者病史中跨时间、跨机构的复杂关联。这种方法使得LLMD能够更准确地分析患者的健康状况,并提供更具价值的临床见解。此外,LLMD的分层验证系统也保证了模型在实际应用中的可靠性。
关键设计:LLMD的关键设计包括:1) 使用大规模的纵向医疗记录进行预训练,确保模型能够学习到患者病史中的细微联系;2) 通过指令微调,使模型能够执行结构化和抽象任务,从而更好地理解医疗记录的内容;3) 采用分层验证系统,通过随机审计和专家审查来确保模型的准确性和可靠性。论文中未明确提及具体的参数设置、损失函数或网络结构等技术细节,这些信息可能属于专有信息或未在摘要中详细描述。
🖼️ 关键图片
📊 实验亮点
LLMD在医学知识基准测试中表现出色,LLMD-8B在PubMedQA文本响应方面实现了最先进的准确性,优于规模大几个数量级的模型。在生产任务中,LLMD显著优于所有其他评估模型,包括大型通用LLM如GPT-4o。这些结果表明,LLMD在处理真实世界的患者数据方面具有显著优势,并且在医学领域具有重要的应用价值。
🎯 应用场景
LLMD在医疗领域具有广泛的应用前景。它可以帮助医生更全面地了解患者的病史,从而做出更准确的诊断和治疗决策。此外,LLMD还可以用于药物研发、疾病预测和健康管理等领域。通过分析大量的医疗记录,LLMD可以发现潜在的药物靶点、预测疾病的发生风险,并为患者提供个性化的健康管理建议。LLMD的出现有望提高医疗服务的质量和效率,改善患者的健康状况。
📄 摘要(原文)
We introduce LLMD, a large language model designed to analyze a patient's medical history based on their medical records. Along with domain knowledge, LLMD is trained on a large corpus of records collected over time and across facilities, as well as tasks and labels that make nuanced connections among them. This approach is critical to an accurate picture of patient health, and has distinctive advantages over models trained on knowledge alone, unlabeled records, structured EHR data, or records from a single health system. The recipe for LLMD continues pretraining a foundational model on both domain knowledge and the contents of millions of records. These span an average of 10 years of care and as many as 140 care sites per patient. LLMD is then instruction fine-tuned on structuring and abstraction tasks. The former jointly identify and normalize document metadata, provenance information, clinical named-entities, and ontology mappings, while the latter roll these into higher-level representations, such a continuous era of time a patient was on a medication. LLMD is deployed within a layered validation system that includes continual random audits and review by experts, e.g. based on uncertainty, disease-specific rules, or use-case. LLMD exhibits large gains over both more-powerful generalized models and domain-specific models. On medical knowledge benchmarks, LLMD-8B achieves state of the art accuracy on PubMedQA text responses, besting orders-of-magnitude larger models. On production tasks, we show that LLMD significantly outperforms all other models evaluated, and among alternatives, large general purpose LLMs like GPT-4o are more accurate than models emphasizing medical knowledge. We find strong evidence that accuracy on today's medical benchmarks is not the most significant factor when analyzing real-world patient data, an insight with implications for future medical LLMs.'