Improving Mortality Prediction After Radiotherapy with Large Language Model Structuring of Large-Scale Unstructured Electronic Health Records

作者: Sangjoon Park, Chan Woo Wee, Seo Hee Choi, Kyung Hwan Kim, Jee Suk Chang, Hong In Yoon, Ik Jae Lee, Yong Bae Kim, Jaeho Cho, Ki Chang Keum, Chang Geol Lee, Hwa Kyung Byun, Woong Sub Koom

分类: cs.CL, cs.AI

发布日期: 2024-08-09 (更新: 2024-12-11)

备注: 23 pages, 2 tables, 4 figures

💡 一句话要点

RT-Surv框架利用大语言模型结构化电子病历，提升放疗后生存预测精度。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 电子病历 生存预测 放疗 自然语言处理 风险分层 临床决策支持

📋 核心要点

放疗后生存预测对优化治疗决策至关重要，但现有方法难以有效利用大量非结构化电子病历数据。
RT-Surv框架利用大语言模型（LLM）将非结构化电子病历转化为结构化数据，并将其与结构化临床数据结合，用于生存预测。
实验结果表明，该框架显著提升了生存预测的准确性，外部验证集上一致性指数从0.779提升至0.842，并改善了风险分层。

📝 摘要（中文）

本研究开发并验证了RT-Surv框架，该框架集成了通用领域的开源大语言模型（LLM），以结构化非结构化电子病历以及结构化临床数据。使用来自34,276名患者的数据和852名患者的外部队列，该框架成功地将非结构化临床信息转换为结构化格式。在外部验证期间，纳入LLM结构化的临床特征将一致性指数从0.779提高到0.842，表明性能显着提高。关键的LLM结构化特征，如疾病范围、一般状况和放疗目的，显示出很高的预测重要性，并且与通过传统统计分析识别出的具有统计学意义的预测因子紧密一致，从而提高了模型的可解释性。此外，该框架增强了风险分层，使用LLM结构化的临床特征，能够更清楚地区分低、中、高风险组（p < 0.001）。这些发现突出了LLM将非结构化数据转化为可操作见解的潜力，从而改善了预测建模和临床患者的治疗结果。

🔬 方法详解

问题定义：论文旨在解决放疗后生存预测中，如何有效利用大量非结构化电子病历信息的问题。现有方法主要依赖结构化数据，忽略了非结构化文本中蕴含的重要临床信息，导致预测精度受限。

核心思路：论文的核心思路是利用大语言模型（LLM）的自然语言理解和信息抽取能力，将非结构化电子病历转化为结构化数据，从而将其融入生存预测模型中。这种方法能够充分利用所有可用的临床信息，提高预测的准确性和可靠性。

技术框架：RT-Surv框架主要包含以下几个阶段：1) 数据收集：收集结构化和非结构化电子病历数据。2) LLM结构化：使用预训练的LLM（例如，基于BERT的模型）对非结构化文本进行处理，提取关键临床特征，并将其转化为结构化格式。3) 特征融合：将LLM结构化的特征与现有的结构化临床数据进行融合。4) 生存预测模型训练：使用融合后的特征训练生存预测模型，例如Cox比例风险模型。5) 模型验证：使用独立的外部数据集对模型进行验证，评估其预测性能。

关键创新：该论文的关键创新在于将通用领域的开源大语言模型应用于电子病历的结构化，并将其与传统的结构化数据结合用于生存预测。这种方法能够有效利用非结构化数据，提高预测精度，并改善风险分层。此外，该研究还关注模型的可解释性，通过分析LLM结构化特征的重要性，揭示了影响生存的关键因素。

关键设计：论文中使用了预训练的BERT模型进行文本结构化，并针对电子病历的特点进行了微调。在生存预测模型方面，采用了Cox比例风险模型，并使用一致性指数（C-index）作为评估指标。此外，论文还对LLM提取的关键特征进行了统计分析，验证了其与传统统计分析结果的一致性。

📊 实验亮点

实验结果表明，RT-Surv框架显著提升了放疗后生存预测的准确性。在外部验证集上，纳入LLM结构化的临床特征后，一致性指数从0.779提高到0.842。此外，该框架还改善了风险分层，能够更清楚地区分低、中、高风险组（p < 0.001）。关键的LLM结构化特征，如疾病范围、一般状况和放疗目的，显示出很高的预测重要性。

🎯 应用场景

该研究成果可应用于临床放疗决策支持系统，帮助医生更准确地评估患者的生存风险，制定个性化的治疗方案。通过整合非结构化电子病历数据，可以更全面地了解患者的病情，提高治疗效果，改善患者的生存质量。未来，该方法还可以推广到其他疾病的生存预测和风险评估中。

📄 摘要（原文）

Accurate survival prediction in radiotherapy (RT) is critical for optimizing treatment decisions. This study developed and validated the RT-Surv framework, which integrates general-domain, open-source large language models (LLMs) to structure unstructured electronic health records alongside structured clinical data. Using data from 34,276 patients and an external cohort of 852, the framework successfully transformed unstructured clinical information into structured formats. Incorporating LLM-structured clinical features improved the concordance index from 0.779 to 0.842 during external validation, demonstrating a significant performance enhancement. Key LLM-structured features, such as disease extent, general condition, and RT purpose, showed high predictive importance and aligned closely with statistically significant predictors identified through conventional statistical analyses, thereby improving model interpretability. Furthermore, the framework enhanced risk stratification, enabling more distinct differentiation among low-, intermediate-, and high-risk groups (p < 0.001) using LLM-structured clinical features. These findings highlight the potential of LLMs to convert unstructured data into actionable insights, improving predictive modeling and patient outcomes in clinics.

Improving Mortality Prediction After Radiotherapy with Large Language Model Structuring of Large-Scale Unstructured Electronic Health Records

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理