Adaptable Cardiovascular Disease Risk Prediction from Heterogeneous Data using Large Language Models

作者: Frederike Lübeck, Jonas Wildberger, Frederik Träuble, Maximilian Mordig, Sergios Gatidis, Andreas Krause, Bernhard Schölkopf

分类: cs.AI, cs.LG

发布日期: 2025-05-30

💡 一句话要点

AdaCVD：利用大型语言模型从异构数据中进行自适应心血管疾病风险预测

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 心血管疾病风险预测 大型语言模型 异构数据融合 临床决策支持 自然语言处理

📋 核心要点

现有心血管疾病风险预测模型过于简化患者信息，对数据分布敏感，难以适应真实临床环境。
AdaCVD利用大型语言模型，通过微调使其能够灵活整合异构数据，包括结构化数据和非结构化文本。
实验表明，AdaCVD在性能上超越了传统风险评分和机器学习方法，并在不同人群中表现出稳健性。

📝 摘要（中文）

心血管疾病（CVD）风险预测模型对于识别高风险个体和指导预防措施至关重要。然而，现有的模型在实际临床应用中面临挑战，因为它们过度简化患者信息，依赖于僵化的输入模式，并且对分布偏移敏感。我们开发了AdaCVD，这是一个基于大型语言模型构建的自适应CVD风险预测框架，该模型在来自英国生物样本库的超过50万参与者的数据上进行了广泛的微调。在基准比较中，AdaCVD超越了已建立的风险评分和标准机器学习方法，实现了最先进的性能。最重要的是，它首次解决了三个关键临床挑战：灵活地整合全面但可变的患者信息；无缝地整合结构化数据和非结构化文本；并使用最少的额外数据快速适应新的患者群体。在分层分析中，它在人口统计、社会经济和临床亚组（包括代表性不足的队列）中表现出稳健的性能。AdaCVD为更灵活、AI驱动的临床决策支持工具提供了一条有希望的道路，该工具适用于异构和动态医疗环境的现实。

🔬 方法详解

问题定义：现有的心血管疾病风险预测模型在实际临床应用中存在局限性。它们通常依赖于预定义的、结构化的输入数据，难以整合患者病历中的非结构化文本信息。此外，这些模型对数据分布的变化非常敏感，难以泛化到新的患者群体。因此，需要一种能够灵活处理异构数据、适应不同患者群体的心血管疾病风险预测模型。

核心思路：AdaCVD的核心思路是利用大型语言模型（LLM）强大的自然语言处理能力和知识表示能力，将患者的各种信息（包括结构化数据和非结构化文本）编码成统一的向量表示，然后基于这些表示进行风险预测。通过在大量心血管疾病相关数据上进行微调，LLM能够学习到疾病风险与患者特征之间的复杂关系。

技术框架：AdaCVD的整体框架包括以下几个主要步骤：1) 数据预处理：对结构化数据进行清洗和标准化，对非结构化文本进行分词、去除停用词等处理。2) 特征编码：使用预训练的LLM（如BERT或其变体）对结构化数据和非结构化文本进行编码，得到患者的向量表示。3) 风险预测：将患者的向量表示输入到一个分类器（如逻辑回归或神经网络）中，预测其患心血管疾病的风险。4) 模型微调：使用心血管疾病相关的数据对LLM和分类器进行微调，以提高预测精度。

关键创新：AdaCVD的关键创新在于它能够灵活地整合异构数据（包括结构化数据和非结构化文本），并利用大型语言模型强大的知识表示能力来提高风险预测的准确性。与传统的风险预测模型相比，AdaCVD不需要预先定义固定的输入特征，而是可以根据患者的实际情况动态地选择和整合相关信息。此外，AdaCVD可以通过少量的数据快速适应新的患者群体。

关键设计：AdaCVD使用了在大量文本数据上预训练的大型语言模型，并在英国生物样本库的超过50万参与者的数据上进行了微调。微调过程中，使用了交叉熵损失函数来优化模型的预测精度。为了提高模型的泛化能力，还使用了数据增强和正则化等技术。具体参数设置未知。

🖼️ 关键图片

📊 实验亮点

AdaCVD在基准测试中超越了已有的风险评分和标准机器学习方法，实现了最先进的性能。它能够灵活地整合结构化数据和非结构化文本，并快速适应新的患者群体。在分层分析中，AdaCVD在不同的人口统计、社会经济和临床亚组中表现出稳健的性能。

🎯 应用场景

AdaCVD可应用于临床决策支持系统，帮助医生识别高风险患者，制定个性化的预防和治疗方案。它还可以用于药物研发，通过分析患者的病历数据，发现新的药物靶点和治疗方法。此外，AdaCVD还可以用于公共卫生监测，通过分析人群的健康数据，评估心血管疾病的流行趋势和风险因素。

📄 摘要（原文）

Cardiovascular disease (CVD) risk prediction models are essential for identifying high-risk individuals and guiding preventive actions. However, existing models struggle with the challenges of real-world clinical practice as they oversimplify patient profiles, rely on rigid input schemas, and are sensitive to distribution shifts. We developed AdaCVD, an adaptable CVD risk prediction framework built on large language models extensively fine-tuned on over half a million participants from the UK Biobank. In benchmark comparisons, AdaCVD surpasses established risk scores and standard machine learning approaches, achieving state-of-the-art performance. Crucially, for the first time, it addresses key clinical challenges across three dimensions: it flexibly incorporates comprehensive yet variable patient information; it seamlessly integrates both structured data and unstructured text; and it rapidly adapts to new patient populations using minimal additional data. In stratified analyses, it demonstrates robust performance across demographic, socioeconomic, and clinical subgroups, including underrepresented cohorts. AdaCVD offers a promising path toward more flexible, AI-driven clinical decision support tools suited to the realities of heterogeneous and dynamic healthcare environments.

Adaptable Cardiovascular Disease Risk Prediction from Heterogeneous Data using Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理