Large Language Models for Medical Forecasting -- Foresight 2

作者: Zeljko Kraljevic, Joshua Au Yeung, Daniel Bean, James Teo, Richard J. Dobson

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-12-14

💡 一句话要点

Foresight 2：通过医院数据微调的大语言模型，用于医疗预测。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 医疗预测 大语言模型 临床笔记 MIMIC-III 风险预测

📋 核心要点

现有医疗预测方法难以有效利用患者临床笔记中的丰富信息，限制了预测的准确性和可靠性。
FS2通过提取生物医学概念并构建上下文相关的患者时间线，从而在医院数据上微调大语言模型。
实验表明，FS2在生物医学概念预测和风险预测任务上显著优于现有方法，包括GPT-4-turbo。

📝 摘要（中文）

Foresight 2 (FS2) 是一个基于医院数据微调的大语言模型，用于建模患者时间线。它可以理解患者的临床笔记，并预测各种生物医学用例的SNOMED代码，包括诊断建议、风险预测以及程序和药物推荐。FS2首先在MIMIC-III数据集的自由文本部分进行训练，通过提取生物医学概念并创建上下文相关的患者时间线，然后在此基础上对模型进行微调。结果表明，对于下一个新的生物医学概念预测，FS2相比之前的最佳方法有显著改进（P/R - 0.73/0.66 vs 0.52/0.32），并且在下一个新的疾病预测方面也有类似的改进（P/R - 0.69/0.62 vs 0.46/0.25）。最后，在风险预测任务中，FS2的性能明显优于GPT-4-turbo（以及一系列开源生物医学LLM）（P@5 - 0.90 vs 0.65）。这突出了将医院数据整合到LLM中的必要性，并表明在高质量的专业数据上进行微调时，小型模型优于大型模型。

🔬 方法详解

问题定义：论文旨在解决医疗预测问题，特别是如何利用患者的临床笔记来预测未来的医疗事件，例如诊断、疾病和风险。现有方法，包括通用大语言模型，在处理特定领域的医疗数据时表现不佳，无法充分利用临床笔记中的信息。

核心思路：论文的核心思路是利用医院数据对大语言模型进行微调，使其能够更好地理解和处理医疗领域的文本信息。通过提取生物医学概念并构建患者时间线，模型能够学习到患者病程的演变规律，从而更准确地进行预测。

技术框架：FS2的整体框架包括以下几个阶段：1) 数据预处理：从MIMIC-III数据集中提取自由文本临床笔记。2) 生物医学概念提取：从临床笔记中提取相关的生物医学概念，例如疾病、药物和程序。3) 患者时间线构建：根据患者的就诊记录，构建上下文相关的患者时间线。4) 模型微调：使用构建的患者时间线数据对大语言模型进行微调。5) 预测：使用微调后的模型进行诊断建议、风险预测以及程序和药物推荐。

关键创新：该论文的关键创新在于利用医院数据对大语言模型进行微调，使其能够更好地适应医疗领域的预测任务。与通用大语言模型相比，FS2能够更好地理解和处理临床笔记中的信息，从而提高预测的准确性。此外，该研究表明，在高质量的专业数据上进行微调时，小型模型可以优于大型模型。

关键设计：论文中未明确说明具体的参数设置、损失函数和网络结构等技术细节。但可以推断，模型微调阶段可能使用了交叉熵损失函数，并针对医疗文本的特点进行了一些优化。具体网络结构未知。

🖼️ 关键图片

📊 实验亮点

FS2在下一个新的生物医学概念预测任务中，Precision/Recall达到0.73/0.66，显著优于之前的最佳方法（0.52/0.32）。在下一个新的疾病预测任务中，Precision/Recall达到0.69/0.62，同样优于之前的最佳方法（0.46/0.25）。在风险预测任务中，FS2的P@5为0.90，明显优于GPT-4-turbo（0.65）。

🎯 应用场景

该研究成果可应用于临床决策支持系统，辅助医生进行诊断、风险评估和治疗方案选择。通过预测患者未来的医疗事件，可以提前采取干预措施，改善患者的预后。此外，该模型还可以用于药物研发和临床试验设计，提高效率和降低成本。

📄 摘要（原文）

Foresight 2 (FS2) is a large language model fine-tuned on hospital data for modelling patient timelines (GitHub 'removed for anon'). It can understand patients' clinical notes and predict SNOMED codes for a wide range of biomedical use cases, including diagnosis suggestions, risk forecasting, and procedure and medication recommendations. FS2 is trained on the free text portion of the MIMIC-III dataset, firstly through extracting biomedical concepts and then creating contextualised patient timelines, upon which the model is then fine-tuned. The results show significant improvement over the previous state-of-the-art for the next new biomedical concept prediction (P/R - 0.73/0.66 vs 0.52/0.32) and a similar improvement specifically for the next new disorder prediction (P/R - 0.69/0.62 vs 0.46/0.25). Finally, on the task of risk forecast, we compare our model to GPT-4-turbo (and a range of open-source biomedical LLMs) and show that FS2 performs significantly better on such tasks (P@5 - 0.90 vs 0.65). This highlights the need to incorporate hospital data into LLMs and shows that small models outperform much larger ones when fine-tuned on high-quality, specialised data.

Large Language Models for Medical Forecasting -- Foresight 2

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理