Large Language Models for Medical Forecasting -- Foresight 2

📄 arXiv: 2412.10848v1 📥 PDF

作者: Zeljko Kraljevic, Joshua Au Yeung, Daniel Bean, James Teo, Richard J. Dobson

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-12-14


💡 一句话要点

Foresight 2:通过医院数据微调的大语言模型,用于医疗预测。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医疗预测 大语言模型 临床笔记 MIMIC-III 风险预测

📋 核心要点

  1. 现有医疗预测方法难以有效利用患者临床笔记中的丰富信息,限制了预测的准确性和可靠性。
  2. FS2通过提取生物医学概念并构建上下文相关的患者时间线,从而在医院数据上微调大语言模型。
  3. 实验表明,FS2在生物医学概念预测和风险预测任务上显著优于现有方法,包括GPT-4-turbo。

📝 摘要(中文)

Foresight 2 (FS2) 是一个基于医院数据微调的大语言模型,用于建模患者时间线。它可以理解患者的临床笔记,并预测各种生物医学用例的SNOMED代码,包括诊断建议、风险预测以及程序和药物推荐。FS2首先在MIMIC-III数据集的自由文本部分进行训练,通过提取生物医学概念并创建上下文相关的患者时间线,然后在此基础上对模型进行微调。结果表明,对于下一个新的生物医学概念预测,FS2相比之前的最佳方法有显著改进(P/R - 0.73/0.66 vs 0.52/0.32),并且在下一个新的疾病预测方面也有类似的改进(P/R - 0.69/0.62 vs 0.46/0.25)。最后,在风险预测任务中,FS2的性能明显优于GPT-4-turbo(以及一系列开源生物医学LLM)(P@5 - 0.90 vs 0.65)。这突出了将医院数据整合到LLM中的必要性,并表明在高质量的专业数据上进行微调时,小型模型优于大型模型。

🔬 方法详解

问题定义:论文旨在解决医疗预测问题,特别是如何利用患者的临床笔记来预测未来的医疗事件,例如诊断、疾病和风险。现有方法,包括通用大语言模型,在处理特定领域的医疗数据时表现不佳,无法充分利用临床笔记中的信息。

核心思路:论文的核心思路是利用医院数据对大语言模型进行微调,使其能够更好地理解和处理医疗领域的文本信息。通过提取生物医学概念并构建患者时间线,模型能够学习到患者病程的演变规律,从而更准确地进行预测。

技术框架:FS2的整体框架包括以下几个阶段:1) 数据预处理:从MIMIC-III数据集中提取自由文本临床笔记。2) 生物医学概念提取:从临床笔记中提取相关的生物医学概念,例如疾病、药物和程序。3) 患者时间线构建:根据患者的就诊记录,构建上下文相关的患者时间线。4) 模型微调:使用构建的患者时间线数据对大语言模型进行微调。5) 预测:使用微调后的模型进行诊断建议、风险预测以及程序和药物推荐。

关键创新:该论文的关键创新在于利用医院数据对大语言模型进行微调,使其能够更好地适应医疗领域的预测任务。与通用大语言模型相比,FS2能够更好地理解和处理临床笔记中的信息,从而提高预测的准确性。此外,该研究表明,在高质量的专业数据上进行微调时,小型模型可以优于大型模型。

关键设计:论文中未明确说明具体的参数设置、损失函数和网络结构等技术细节。但可以推断,模型微调阶段可能使用了交叉熵损失函数,并针对医疗文本的特点进行了一些优化。具体网络结构未知。

🖼️ 关键图片

fig_0

📊 实验亮点

FS2在下一个新的生物医学概念预测任务中,Precision/Recall达到0.73/0.66,显著优于之前的最佳方法(0.52/0.32)。在下一个新的疾病预测任务中,Precision/Recall达到0.69/0.62,同样优于之前的最佳方法(0.46/0.25)。在风险预测任务中,FS2的P@5为0.90,明显优于GPT-4-turbo(0.65)。

🎯 应用场景

该研究成果可应用于临床决策支持系统,辅助医生进行诊断、风险评估和治疗方案选择。通过预测患者未来的医疗事件,可以提前采取干预措施,改善患者的预后。此外,该模型还可以用于药物研发和临床试验设计,提高效率和降低成本。

📄 摘要(原文)

Foresight 2 (FS2) is a large language model fine-tuned on hospital data for modelling patient timelines (GitHub 'removed for anon'). It can understand patients' clinical notes and predict SNOMED codes for a wide range of biomedical use cases, including diagnosis suggestions, risk forecasting, and procedure and medication recommendations. FS2 is trained on the free text portion of the MIMIC-III dataset, firstly through extracting biomedical concepts and then creating contextualised patient timelines, upon which the model is then fine-tuned. The results show significant improvement over the previous state-of-the-art for the next new biomedical concept prediction (P/R - 0.73/0.66 vs 0.52/0.32) and a similar improvement specifically for the next new disorder prediction (P/R - 0.69/0.62 vs 0.46/0.25). Finally, on the task of risk forecast, we compare our model to GPT-4-turbo (and a range of open-source biomedical LLMs) and show that FS2 performs significantly better on such tasks (P@5 - 0.90 vs 0.65). This highlights the need to incorporate hospital data into LLMs and shows that small models outperform much larger ones when fine-tuned on high-quality, specialised data.